|
1 | 1 | # PDF to Text Converter
|
2 | 2 |
|
3 |
| -Este projeto é uma ferramenta em Python para converter arquivos PDF em texto limpo e legível. Ele foi projetado para extrair texto de PDFs locais e remotos, realizar o pós-processamento do texto extraído para melhorar a legibilidade e salvar o conteúdo formatado em arquivos `.txt`. O projeto também inclui funcionalidades de download de PDFs a partir de URLs e limpeza de texto para evitar problemas com quebras de linha e espaçamento desorganizado. |
| 3 | +This project is a Python tool designed to convert PDF files into clean and readable text. It is built to extract text from both local and remote PDFs, perform post-processing to improve readability, and save the formatted content into `.txt` files. The project also includes features for downloading PDFs from URLs and cleaning up the extracted text to prevent issues with line breaks and disorganized spacing. |
4 | 4 |
|
5 | 5 | ---
|
6 | 6 |
|
7 |
| -## Funcionalidades |
8 |
| -1. **Extração de Texto de PDFs Locais e Remotos**: |
9 |
| - - Suporte para arquivos PDF armazenados localmente e para PDFs disponibilizados via URL. |
10 |
| -2. **Limpeza e Formatação do Texto**: |
11 |
| - - Remoção de quebras de linha indesejadas e espaçamento excessivo. |
12 |
| - - Manutenção de parágrafos e estrutura original. |
13 |
| -3. **Salvamento do Texto em Arquivos `.txt`**: |
14 |
| - - O texto extraído pode ser salvo em um arquivo `.txt` com o mesmo nome do PDF original. |
15 |
| -4. **Criação Automática de Pastas de Saída**: |
16 |
| - - Organiza os textos gerados em uma pasta de saída (`output_texts`) para fácil navegação e uso futuro. |
| 7 | +## Features |
| 8 | +1. **Text Extraction from Local and Remote PDFs**: |
| 9 | + - Supports PDF files stored locally and PDFs available via URL. |
| 10 | +2. **Text Cleaning and Formatting**: |
| 11 | + - Removes unwanted line breaks and excessive spacing. |
| 12 | + - Preserves paragraphs and maintains the original structure. |
| 13 | +3. **Saving Extracted Text as `.txt` Files**: |
| 14 | + - The extracted text can be saved as a `.txt` file with the same name as the original PDF. |
| 15 | +4. **Automatic Output Folder Creation**: |
| 16 | + - Organizes generated text files into an `output_texts` folder for easy navigation and future use. |
17 | 17 |
|
18 |
| -## Requisitos |
| 18 | +## Requirements |
19 | 19 |
|
20 |
| -Certifique-se de ter as seguintes bibliotecas instaladas: |
| 20 | +Make sure to have the following libraries installed: |
21 | 21 |
|
22 | 22 | - `requests`
|
23 | 23 | - `PyPDF2`
|
24 | 24 |
|
25 |
| -Se ainda não as tiver, instale usando: |
| 25 | +If you do not have them yet, install them using: |
26 | 26 |
|
27 | 27 | ```bash
|
28 | 28 | pip install requests PyPDF2
|
0 commit comments