Categorias

PDF Text Extractor

Extract text content from PDF documents with support for page selection, formatting options, and multi-language processing

Click to upload file or drag and drop file here

Maximum file size: 100MB Supported formats: application/pdf

Supports PDF files up to 100MB

Specify pages to extract (1-5 for range, 3 for single page, 1,3,5 for multiple). Leave empty for all pages.

Keep original layout, spacing, and formatting as much as possible

Clean up excessive spaces and line breaks

Add line numbers to the extracted text

Fatos principais

Categoria
Document Tools
Tipos de entrada
file, text, select, checkbox
Tipo de saída
text
Cobertura de amostras
4
API disponível
Yes

Visão geral

O Extrator de Texto PDF é uma ferramenta eficiente para converter documentos PDF em texto editável, permitindo a extração precisa de conteúdo com opções de formatação personalizáveis e suporte para intervalos de páginas específicos.

Quando usar

  • Quando você precisa extrair dados de relatórios ou documentos PDF para editá-los em processadores de texto.
  • Ao converter documentos longos e precisar selecionar apenas páginas específicas para extração.
  • Quando deseja transformar o conteúdo de um PDF em formatos estruturados como Markdown ou JSON para uso em outras aplicações.

Como funciona

  • Faça o upload do seu arquivo PDF (até 100MB) na ferramenta.
  • Defina o intervalo de páginas desejado ou deixe em branco para processar o documento inteiro.
  • Escolha o formato de saída (Texto Simples, Markdown ou JSON) e ajuste as preferências de limpeza de espaços.
  • Clique em processar para extrair o conteúdo e baixar o resultado final.

Casos de uso

Extração de dados de contratos para análise em sistemas de gestão.
Conversão de artigos acadêmicos em PDF para formato Markdown para uso em editores de notas.
Limpeza de documentos digitalizados para facilitar a leitura e busca de informações.

Exemplos

1. Extração de Relatório Financeiro para JSON

Analista de Dados
Contexto
O analista possui um relatório financeiro em PDF e precisa integrar os dados em um sistema interno que aceita apenas JSON.
Problema
Converter o conteúdo textual do PDF em uma estrutura de dados legível por máquina.
Como usar
Carregar o PDF, selecionar o formato de saída 'JSON' e processar o arquivo.
Resultado
O conteúdo do PDF é convertido em um objeto JSON estruturado, pronto para ser importado no banco de dados.

2. Conversão de Artigo para Markdown

Redator de Conteúdo
Contexto
Um redator precisa citar partes de um e-book técnico em seu blog, mas o PDF original possui formatação complexa.
Problema
Extrair o texto mantendo a estrutura de tópicos e cabeçalhos para facilitar a edição no blog.
Como usar
Selecionar o intervalo de páginas desejado, escolher o formato 'Markdown' e ativar a preservação de formatação.
Resultado
O texto é extraído com a formatação Markdown preservada, permitindo uma colagem rápida no editor do blog.

Testar com amostras

pdf, video, text

Hubs relacionados

FAQ

Qual é o tamanho máximo de arquivo suportado?

A ferramenta suporta arquivos PDF com até 100MB.

Posso extrair apenas páginas específicas?

Sim, você pode especificar um intervalo (ex: 1-5), uma página única (ex: 3) ou páginas alternadas (ex: 1,3,5).

Quais formatos de saída estão disponíveis?

Você pode exportar o conteúdo como Texto Simples, Texto Formatado, Markdown ou estrutura JSON.

A ferramenta mantém a formatação original?

Sim, ao habilitar a opção 'Preservar Formatação Original', o layout e o espaçamento são mantidos conforme possível.

É possível remover espaços extras do texto extraído?

Sim, basta marcar a opção 'Remover Espaços Extras' para limpar quebras de linha e espaços excessivos automaticamente.

Documentação da API

Ponto final da solicitação

POST /pt/api/tools/pdf-text-extractor

Parâmetros da solicitação

Nome do parâmetro Tipo Requerido Descrição
pdfFile file (Upload necessário) Sim Supports PDF files up to 100MB
pageRange text Não Specify pages to extract (1-5 for range, 3 for single page, 1,3,5 for multiple). Leave empty for all pages.
outputFormat select Não -
preserveFormatting checkbox Não Keep original layout, spacing, and formatting as much as possible
removeExtraWhitespace checkbox Não Clean up excessive spaces and line breaks
includeLineNumbers checkbox Não Add line numbers to the extracted text
encoding select Não -

Os parâmetros de tipo arquivo precisam ser carregados primeiro via POST /upload/pdf-text-extractor para obter filePath, depois filePath deve ser passado ao campo de arquivo correspondente.

Formato de resposta

{
  "result": "Processed text content",
  "error": "Error message (optional)",
  "message": "Notification message (optional)",
  "metadata": {
    "key": "value"
  }
}
Texto: Texto

Documentação de MCP

Adicione este ferramenta à sua configuração de servidor MCP:

{
  "mcpServers": {
    "elysiatools-pdf-text-extractor": {
      "name": "pdf-text-extractor",
      "description": "Extract text content from PDF documents with support for page selection, formatting options, and multi-language processing",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=pdf-text-extractor",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

Você pode encadear várias ferramentas, ex: `https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`, máx 20 ferramentas.

Suporta links de arquivos URL ou codificação Base64 para parâmetros de arquivo.

Se você encontrar algum problema, por favor, entre em contato conosco em [email protected]