OCR de PDF digitalizado para Markdown

Converte PDFs digitalizados ou baseados em imagem para Markdown, priorizando hybrid OCR e degradando de forma clara quando indisponivel

Depois de enviar um PDF digitalizado, a ferramenta tentara primeiro o OpenDataLoader hybrid OCR para exportar Markdown; se o backend hybrid nao estiver disponivel, ela fara fallback automatico para a extracao padrao e indicara o motivo nos metadata.

Exemplos de resultados

1 Exemplos

Converter um PDF OCR para Markdown

O sample real gera Markdown reutilizavel e usa o caminho local para permanecer reproduzivel no repositorio.

scanned-pdf-ocr-to-markdown-example1.md Ver arquivo
Ver parâmetros de entrada
{ "pdfFile": "/public/samples/pdf/pdf-ocr-text-layer-example1.pdf", "pages": "", "keepLineBreaks": true, "includePageSeparators": true, "hybridBackendUrl": "", "preferHybridOcr": false }

Click to upload file or drag and drop file here

Maximum file size: 10MB Supported formats: application/pdf

Fatos principais

Categoria
IA e geradores
Tipos de entrada
file, text, checkbox
Tipo de saída
file
Cobertura de amostras
4
API disponível
Yes

Visão geral

Esta ferramenta converte PDFs digitalizados ou baseados em imagens em arquivos Markdown editáveis, utilizando a tecnologia OpenDataLoader hybrid OCR para garantir alta precisão na extração de texto e preservação da estrutura do documento.

Quando usar

  • Quando você possui documentos digitalizados que não permitem a seleção ou cópia de texto original.
  • Para transformar manuais, livros ou relatórios antigos em formato Markdown para documentação técnica.
  • Sempre que precisar converter PDFs baseados em imagem em um formato leve e compatível com editores de texto modernos.

Como funciona

  • Carregue o arquivo PDF digitalizado diretamente na plataforma.
  • Configure o intervalo de páginas desejado e as opções de formatação, como quebras de linha e separadores.
  • O motor de OCR híbrido processa as imagens para identificar caracteres e converter o layout em sintaxe Markdown.
  • O sistema gera um arquivo .md para download, com um aviso nos metadados caso ocorra fallback para extração padrão.

Casos de uso

Conversão de contratos físicos digitalizados para sistemas de gestão de documentos digitais.
Transformação de capítulos de livros escaneados em notas de estudo para aplicativos como Obsidian ou Notion.
Extração de texto de relatórios técnicos antigos que foram arquivados apenas como imagens de baixa resolução.

Exemplos

1. Digitalização de Relatório Histórico

Arquivista Digital
Contexto
O usuário possui um relatório de 1985 que foi digitalizado como uma série de imagens dentro de um PDF, sem camada de texto pesquisável.
Problema
O conteúdo precisa ser indexado em um banco de dados de conhecimento, mas digitar manualmente centenas de páginas é inviável.
Como usar
O usuário faz o upload do PDF, seleciona 'Preferir OCR hybrid' e mantém a opção de separadores de página ativa.
Configuração de exemplo
pdfFile: 'relatorio_1985.pdf', preferHybridOcr: true, includePageSeparators: true
Resultado
Um arquivo Markdown estruturado onde cada página do relatório original é representada, permitindo buscas e edições rápidas.

2. Extração de Notas de Estudo

Estudante Universitário
Contexto
O estudante recebeu um PDF contendo fotos de páginas de um livro raro necessário para sua tese.
Problema
Precisa citar trechos específicos no seu trabalho acadêmico sem erros de digitação.
Como usar
O estudante carrega o PDF e define o intervalo de páginas específico (ex: 45-50) para converter apenas o capítulo necessário.
Configuração de exemplo
pdfFile: 'livro_raro.pdf', pages: '45-50', keepLineBreaks: true
Resultado
Um documento Markdown contendo o texto exato das páginas selecionadas, pronto para ser copiado e citado no trabalho.

Testar com amostras

markdown, pdf, image

Hubs relacionados

FAQ

O que acontece se o backend de OCR híbrido estiver indisponível?

A ferramenta realiza automaticamente um fallback para a extração padrão e indica o motivo nos metadados do arquivo resultante.

Posso converter apenas partes específicas de um documento longo?

Sim, você pode especificar páginas individuais ou intervalos, como '1, 3, 5-10', no campo de configuração de páginas.

A ferramenta mantém as quebras de linha originais do PDF?

Sim, a opção 'Manter quebras de linha' vem ativada por padrão para preservar a estrutura visual do texto original.

É possível identificar onde termina uma página no arquivo Markdown?

Sim, ao ativar a opção 'Incluir separadores de página', a ferramenta insere marcadores claros entre o conteúdo de cada página.

Preciso configurar uma URL de backend híbrido?

Não é obrigatório; esse campo é opcional para usuários que desejam conectar a ferramenta a uma instância específica do OpenDataLoader.

Documentação da API

Ponto final da solicitação

POST /pt/api/tools/scanned-pdf-ocr-to-markdown

Parâmetros da solicitação

Nome do parâmetro Tipo Requerido Descrição
pdfFile file (Upload necessário) Sim -
pages text Não -
keepLineBreaks checkbox Não -
includePageSeparators checkbox Não -
hybridBackendUrl text Não -
preferHybridOcr checkbox Não -

Os parâmetros de tipo arquivo precisam ser carregados primeiro via POST /upload/scanned-pdf-ocr-to-markdown para obter filePath, depois filePath deve ser passado ao campo de arquivo correspondente.

Formato de resposta

{
  "filePath": "/public/processing/randomid.ext",
  "fileName": "output.ext",
  "contentType": "application/octet-stream",
  "size": 1024,
  "metadata": {
    "key": "value"
  },
  "error": "Error message (optional)",
  "message": "Notification message (optional)"
}
Arquivo: Arquivo

Documentação de MCP

Adicione este ferramenta à sua configuração de servidor MCP:

{
  "mcpServers": {
    "elysiatools-scanned-pdf-ocr-to-markdown": {
      "name": "scanned-pdf-ocr-to-markdown",
      "description": "Converte PDFs digitalizados ou baseados em imagem para Markdown, priorizando hybrid OCR e degradando de forma clara quando indisponivel",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=scanned-pdf-ocr-to-markdown",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

Você pode encadear várias ferramentas, ex: `https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`, máx 20 ferramentas.

Suporta links de arquivos URL ou codificação Base64 para parâmetros de arquivo.

Se você encontrar algum problema, por favor, entre em contato conosco em [email protected]