Conversor de PDF para Markdown estruturado

Converte PDF em Markdown estruturado com OpenDataLoader e opcoes para HTML, imagens e separadores de pagina

Depois de enviar um PDF, a ferramenta executa o OpenDataLoader para gerar Markdown estruturado. Voce pode escolher Markdown simples, Markdown com HTML ou com referencias de imagem, alem de controlar quebras de linha, separadores de pagina, estrutura tagged e sanitizacao.

Exemplos de resultados

1 Exemplos

Converter um guia de marca PDF para Markdown

O sample real gerou um arquivo Markdown reutilizavel de 596 bytes.

pdf-to-structured-markdown-converter-example1.md Ver arquivo
Ver parâmetros de entrada
{ "pdfFile": "/public/samples/pdf/brand-guidelines-pdf-example1.pdf", "markdownOutput": "markdown", "keepLineBreaks": true, "useStructTree": true, "includePageSeparators": true, "sanitizeSensitiveData": false, "pages": "" }

Click to upload file or drag and drop file here

Maximum file size: 10MB Supported formats: application/pdf

Fatos principais

Categoria
Desenvolvimento e Web
Tipos de entrada
file, select, checkbox, text
Tipo de saída
file
Cobertura de amostras
4
API disponível
Yes

Visão geral

O Conversor de PDF para Markdown estruturado utiliza o OpenDataLoader para transformar documentos PDF em arquivos Markdown prontos para uso. Com suporte para extração de imagens, formatação em HTML e separadores de página, esta ferramenta é ideal para migração de conteúdo, documentação técnica e preparação de textos para sistemas de IA, permitindo controle total sobre quebras de linha e sanitização de dados sensíveis.

Quando usar

  • Quando precisar migrar manuais ou guias em PDF para sistemas de documentação baseados em Markdown.
  • Para extrair texto estruturado de relatórios em PDF para alimentar pipelines de Inteligência Artificial (IA).
  • Ao converter documentos longos mantendo a estrutura original, como tabelas, imagens e separadores de página.

Como funciona

  • Envie o arquivo PDF que deseja converter.
  • Selecione o formato de saída desejado (Markdown simples, com HTML ou com imagens) e defina as páginas específicas, se necessário.
  • Ajuste as opções avançadas, como manter quebras de linha, usar a árvore estrutural do PDF ou sanitizar dados sensíveis.
  • Baixe o arquivo Markdown gerado, pronto para ser integrado ao seu fluxo de trabalho.

Casos de uso

Migração de guias de marca e manuais de usuário em PDF para repositórios GitHub ou wikis corporativas.
Preparação de artigos acadêmicos e relatórios financeiros para treinamento de modelos de linguagem (LLMs).
Extração rápida de texto e imagens de apresentações em PDF para criação de conteúdo web.

Exemplos

1. Conversão de Guia de Marca para Wiki

Redator Técnico
Contexto
A equipe de design forneceu o novo guia da marca em PDF, mas a equipe de desenvolvimento precisa do conteúdo no formato Markdown para a wiki interna.
Problema
Converter o PDF mantendo a estrutura de tópicos e separação de páginas sem precisar redigitar tudo.
Como usar
Faça o upload do PDF do guia da marca, selecione 'Markdown simples' e ative 'Incluir separadores de página' e 'Usar árvore estrutural'.
Configuração de exemplo
markdownOutput: markdown, includePageSeparators: true, useStructTree: true
Resultado
Um arquivo Markdown estruturado é gerado, preservando a hierarquia de títulos e indicando claramente onde cada página do PDF original termina.

2. Extração de Relatório Financeiro com Sanitização

Analista de Dados
Contexto
Um analista precisa extrair texto de um relatório financeiro em PDF de 50 páginas para análise de IA, mas o documento contém dados de clientes.
Problema
Extrair apenas as páginas relevantes (10 a 15) e garantir que informações sensíveis não sejam expostas.
Como usar
Envie o relatório, defina o campo 'Páginas' como '10-15' e ative a opção 'Sanitizar dados sensíveis'.
Configuração de exemplo
pages: 10-15, sanitizeSensitiveData: true, markdownOutput: markdown
Resultado
O texto das páginas 10 a 15 é extraído para Markdown, com os dados sensíveis automaticamente mascarados, pronto para processamento seguro.

Testar com amostras

html, markdown, pdf

Hubs relacionados

FAQ

Posso converter apenas páginas específicas do PDF?

Sim, você pode usar o campo 'Páginas' para definir intervalos específicos, como '1,3,5-7'.

O que a opção 'Usar árvore estrutural' faz?

Ela utiliza a estrutura interna do PDF (Tagged PDF) para gerar um Markdown mais fiel à hierarquia original do documento, como títulos e parágrafos.

É possível extrair imagens do PDF para o Markdown?

Sim, basta selecionar a opção 'Markdown com imagens' na configuração de saída para incluir as referências das imagens extraídas.

Como funciona a sanitização de dados sensíveis?

Ao ativar a opção 'Sanitizar dados sensíveis', a ferramenta identifica e oculta informações confidenciais durante a conversão do texto.

O formato de saída suporta HTML?

Sim, escolhendo 'Markdown com HTML', o arquivo gerado incluirá tags HTML para preservar formatações complexas que o Markdown simples não suporta nativamente.

Documentação da API

Ponto final da solicitação

POST /pt/api/tools/pdf-to-structured-markdown-converter

Parâmetros da solicitação

Nome do parâmetro Tipo Requerido Descrição
pdfFile file (Upload necessário) Sim -
markdownOutput select Não -
keepLineBreaks checkbox Não -
useStructTree checkbox Não -
includePageSeparators checkbox Não -
sanitizeSensitiveData checkbox Não -
pages text Não -

Os parâmetros de tipo arquivo precisam ser carregados primeiro via POST /upload/pdf-to-structured-markdown-converter para obter filePath, depois filePath deve ser passado ao campo de arquivo correspondente.

Formato de resposta

{
  "filePath": "/public/processing/randomid.ext",
  "fileName": "output.ext",
  "contentType": "application/octet-stream",
  "size": 1024,
  "metadata": {
    "key": "value"
  },
  "error": "Error message (optional)",
  "message": "Notification message (optional)"
}
Arquivo: Arquivo

Documentação de MCP

Adicione este ferramenta à sua configuração de servidor MCP:

{
  "mcpServers": {
    "elysiatools-pdf-to-structured-markdown-converter": {
      "name": "pdf-to-structured-markdown-converter",
      "description": "Converte PDF em Markdown estruturado com OpenDataLoader e opcoes para HTML, imagens e separadores de pagina",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=pdf-to-structured-markdown-converter",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

Você pode encadear várias ferramentas, ex: `https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`, máx 20 ferramentas.

Suporta links de arquivos URL ou codificação Base64 para parâmetros de arquivo.

Se você encontrar algum problema, por favor, entre em contato conosco em [email protected]