PDF para Texto Avançado

Conversor avançado de PDF para texto com seleção de páginas, opções de formatação e extração de metadados

Conversão avançada de PDF para texto com amplas opções de personalização.

Exemplos de resultados

2 Exemplos

Extrair texto com intervalo de páginas

Extrai texto de páginas específicas de um documento PDF

pdf-to-text-output.txt Ver arquivo
Ver parâmetros de entrada
{ "sourceFile": "/public/samples/pdf/document.pdf", "pageRange": "1-5,10", "outputFormat": "structured", "includeMetadata": true }

Exportar para JSON

Exporta o conteúdo e metadados do PDF em formato JSON

pdf-to-text-output.json Ver arquivo
Ver parâmetros de entrada
{ "sourceFile": "/public/samples/pdf/book.pdf", "outputFormat": "json", "includeMetadata": true, "pageRange": "all" }

Click to upload file or drag and drop file here

Maximum file size: 100MB Supported formats: application/pdf

Fatos principais

Categoria
Documentos e PDF
Tipos de entrada
file, text, select, checkbox
Tipo de saída
file
Cobertura de amostras
4
API disponível
Yes

Visão geral

O PDF para Texto Avançado é uma ferramenta robusta projetada para extrair conteúdo textual de arquivos PDF de forma personalizada. Ela permite selecionar intervalos de páginas específicos, definir o nível de limpeza do texto, incluir metadados e exportar o resultado nos formatos Plain Text, Estruturado ou JSON, preservando ou não a estrutura original dos parágrafos.

Quando usar

  • Quando você precisa extrair texto apenas de páginas específicas de um documento PDF longo, evitando o processamento de todo o arquivo.
  • Ao preparar dados textuais de PDFs para integração com sistemas externos, exportando o conteúdo diretamente no formato JSON.
  • Quando é necessário remover ruídos de formatação ou extrair metadados do documento original junto com o texto limpo.

Como funciona

  • Faça o upload do arquivo PDF que deseja converter.
  • Defina o intervalo de páginas desejado e configure as opções de formatação, como nível de limpeza, inclusão de metadados e números de linha.
  • Escolha o formato de saída entre texto simples, estruturado ou JSON.
  • Clique em processar para gerar e baixar o arquivo de texto convertido com as configurações aplicadas.

Casos de uso

Extração de capítulos específicos de e-books ou relatórios extensos em PDF para leitura em texto puro.
Conversão de relatórios financeiros em formato JSON para integração direta com bancos de dados ou sistemas de análise.
Limpeza e preparação de corpus de texto a partir de artigos acadêmicos em PDF para treinamento de modelos de linguagem.

Exemplos

1. Extração Seletiva de Relatório Anual

Analista de Dados
Contexto
Um analista precisa extrair apenas a seção de conclusões de um relatório anual em PDF de 200 páginas para análise de sentimento.
Problema
O relatório completo é muito grande e contém tabelas e cabeçalhos irrelevantes nas páginas iniciais e finais.
Como usar
O usuário faz o upload do PDF, define o intervalo de páginas como '150-165', ativa a preservação da estrutura de parágrafos e escolhe o formato de saída estruturado.
Configuração de exemplo
{
  "pageRange": "150-165",
  "outputFormat": "structured",
  "preserveParagraphStructure": true,
  "cleanLevel": "gentle"
}
Resultado
Um arquivo de texto limpo contendo apenas o conteúdo das páginas 150 a 165, estruturado e pronto para análise.

2. Conversão de Artigos Acadêmicos para JSON

Pesquisador Acadêmico
Contexto
Um pesquisador está compilando metadados e textos de múltiplos artigos científicos em PDF para alimentar um banco de dados de pesquisa.
Problema
Copiar manualmente o texto e os metadados de cada PDF é demorado e propenso a erros de formatação.
Como usar
O pesquisador faz o upload do PDF do artigo, seleciona o formato de saída JSON e ativa a opção de incluir metadados.
Configuração de exemplo
{
  "outputFormat": "json",
  "includeMetadata": true,
  "pageRange": "all",
  "cleanLevel": "aggressive"
}
Resultado
Um arquivo JSON estruturado contendo os metadados do artigo (como autor e título) e o texto completo limpo de ruídos.

Testar com amostras

pdf, text, barcode

Hubs relacionados

FAQ

Posso extrair texto de apenas algumas páginas do PDF?

Sim, basta preencher o campo de intervalo de páginas com formatos como '1-5,7' ou 'all' para processar todo o documento.

Quais formatos de saída são suportados?

Você pode exportar o texto extraído nos formatos Plain Text (texto simples), Estruturado (com separadores) ou JSON.

O que faz a opção de limpeza de texto?

Ela remove caracteres indesejados ou ruídos de formatação, variando entre os níveis Gentle (suave), Aggressive (agressivo) ou None (nenhum).

É possível manter a estrutura original dos parágrafos?

Sim, ativando a opção de preservar a estrutura de parágrafos, a ferramenta tenta manter a disposição original do texto.

A ferramenta extrai metadados do PDF?

Sim, se a opção de incluir metadados estiver ativa, informações como autor, título e data de criação serão adicionadas ao arquivo de saída.

Documentação da API

Ponto final da solicitação

POST /pt/api/tools/pdf-to-text-advanced

Parâmetros da solicitação

Nome do parâmetro Tipo Requerido Descrição
sourceFile file (Upload necessário) Sim -
pageRange text Não -
outputFormat select Não -
cleanLevel select Não -
includeMetadata checkbox Não -
includePageHeaders checkbox Não -
includeLineNumbers checkbox Não -
preserveParagraphStructure checkbox Não -

Os parâmetros de tipo arquivo precisam ser carregados primeiro via POST /upload/pdf-to-text-advanced para obter filePath, depois filePath deve ser passado ao campo de arquivo correspondente.

Formato de resposta

{
  "filePath": "/public/processing/randomid.ext",
  "fileName": "output.ext",
  "contentType": "application/octet-stream",
  "size": 1024,
  "metadata": {
    "key": "value"
  },
  "error": "Error message (optional)",
  "message": "Notification message (optional)"
}
Arquivo: Arquivo

Documentação de MCP

Adicione este ferramenta à sua configuração de servidor MCP:

{
  "mcpServers": {
    "elysiatools-pdf-to-text-advanced": {
      "name": "pdf-to-text-advanced",
      "description": "Conversor avançado de PDF para texto com seleção de páginas, opções de formatação e extração de metadados",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=pdf-to-text-advanced",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

Você pode encadear várias ferramentas, ex: `https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`, máx 20 ferramentas.

Suporta links de arquivos URL ou codificação Base64 para parâmetros de arquivo.

Se você encontrar algum problema, por favor, entre em contato conosco em [email protected]