Skip to content

Commit b1b35c1

Browse files
committed
changes to readme
1 parent 733d44a commit b1b35c1

File tree

1 file changed

+14
-14
lines changed

1 file changed

+14
-14
lines changed

PDF to text/README.md

+14-14
Original file line numberDiff line numberDiff line change
@@ -1,28 +1,28 @@
11
# PDF to Text Converter
22

3-
Este projeto é uma ferramenta em Python para converter arquivos PDF em texto limpo e legível. Ele foi projetado para extrair texto de PDFs locais e remotos, realizar o pós-processamento do texto extraído para melhorar a legibilidade e salvar o conteúdo formatado em arquivos `.txt`. O projeto também inclui funcionalidades de download de PDFs a partir de URLs e limpeza de texto para evitar problemas com quebras de linha e espaçamento desorganizado.
3+
This project is a Python tool designed to convert PDF files into clean and readable text. It is built to extract text from both local and remote PDFs, perform post-processing to improve readability, and save the formatted content into `.txt` files. The project also includes features for downloading PDFs from URLs and cleaning up the extracted text to prevent issues with line breaks and disorganized spacing.
44

55
---
66

7-
## Funcionalidades
8-
1. **Extração de Texto de PDFs Locais e Remotos**:
9-
- Suporte para arquivos PDF armazenados localmente e para PDFs disponibilizados via URL.
10-
2. **Limpeza e Formatação do Texto**:
11-
- Remoção de quebras de linha indesejadas e espaçamento excessivo.
12-
- Manutenção de parágrafos e estrutura original.
13-
3. **Salvamento do Texto em Arquivos `.txt`**:
14-
- O texto extraído pode ser salvo em um arquivo `.txt` com o mesmo nome do PDF original.
15-
4. **Criação Automática de Pastas de Saída**:
16-
- Organiza os textos gerados em uma pasta de saída (`output_texts`) para fácil navegação e uso futuro.
7+
## Features
8+
1. **Text Extraction from Local and Remote PDFs**:
9+
- Supports PDF files stored locally and PDFs available via URL.
10+
2. **Text Cleaning and Formatting**:
11+
- Removes unwanted line breaks and excessive spacing.
12+
- Preserves paragraphs and maintains the original structure.
13+
3. **Saving Extracted Text as `.txt` Files**:
14+
- The extracted text can be saved as a `.txt` file with the same name as the original PDF.
15+
4. **Automatic Output Folder Creation**:
16+
- Organizes generated text files into an `output_texts` folder for easy navigation and future use.
1717

18-
## Requisitos
18+
## Requirements
1919

20-
Certifique-se de ter as seguintes bibliotecas instaladas:
20+
Make sure to have the following libraries installed:
2121

2222
- `requests`
2323
- `PyPDF2`
2424

25-
Se ainda não as tiver, instale usando:
25+
If you do not have them yet, install them using:
2626

2727
```bash
2828
pip install requests PyPDF2

0 commit comments

Comments
 (0)