Fatos principais
- Categoria
- IA e geradores
- Tipos de entrada
- file, text, checkbox
- Tipo de saída
- file
- Cobertura de amostras
- 4
- API disponível
- Yes
Visão geral
Esta ferramenta converte PDFs digitalizados ou baseados em imagens em arquivos Markdown editáveis, utilizando a tecnologia OpenDataLoader hybrid OCR para garantir alta precisão na extração de texto e preservação da estrutura do documento.
Quando usar
- •Quando você possui documentos digitalizados que não permitem a seleção ou cópia de texto original.
- •Para transformar manuais, livros ou relatórios antigos em formato Markdown para documentação técnica.
- •Sempre que precisar converter PDFs baseados em imagem em um formato leve e compatível com editores de texto modernos.
Como funciona
- •Carregue o arquivo PDF digitalizado diretamente na plataforma.
- •Configure o intervalo de páginas desejado e as opções de formatação, como quebras de linha e separadores.
- •O motor de OCR híbrido processa as imagens para identificar caracteres e converter o layout em sintaxe Markdown.
- •O sistema gera um arquivo .md para download, com um aviso nos metadados caso ocorra fallback para extração padrão.
Casos de uso
Exemplos
1. Digitalização de Relatório Histórico
Arquivista Digital- Contexto
- O usuário possui um relatório de 1985 que foi digitalizado como uma série de imagens dentro de um PDF, sem camada de texto pesquisável.
- Problema
- O conteúdo precisa ser indexado em um banco de dados de conhecimento, mas digitar manualmente centenas de páginas é inviável.
- Como usar
- O usuário faz o upload do PDF, seleciona 'Preferir OCR hybrid' e mantém a opção de separadores de página ativa.
- Configuração de exemplo
-
pdfFile: 'relatorio_1985.pdf', preferHybridOcr: true, includePageSeparators: true - Resultado
- Um arquivo Markdown estruturado onde cada página do relatório original é representada, permitindo buscas e edições rápidas.
2. Extração de Notas de Estudo
Estudante Universitário- Contexto
- O estudante recebeu um PDF contendo fotos de páginas de um livro raro necessário para sua tese.
- Problema
- Precisa citar trechos específicos no seu trabalho acadêmico sem erros de digitação.
- Como usar
- O estudante carrega o PDF e define o intervalo de páginas específico (ex: 45-50) para converter apenas o capítulo necessário.
- Configuração de exemplo
-
pdfFile: 'livro_raro.pdf', pages: '45-50', keepLineBreaks: true - Resultado
- Um documento Markdown contendo o texto exato das páginas selecionadas, pronto para ser copiado e citado no trabalho.
Testar com amostras
markdown, pdf, imageHubs relacionados
FAQ
O que acontece se o backend de OCR híbrido estiver indisponível?
A ferramenta realiza automaticamente um fallback para a extração padrão e indica o motivo nos metadados do arquivo resultante.
Posso converter apenas partes específicas de um documento longo?
Sim, você pode especificar páginas individuais ou intervalos, como '1, 3, 5-10', no campo de configuração de páginas.
A ferramenta mantém as quebras de linha originais do PDF?
Sim, a opção 'Manter quebras de linha' vem ativada por padrão para preservar a estrutura visual do texto original.
É possível identificar onde termina uma página no arquivo Markdown?
Sim, ao ativar a opção 'Incluir separadores de página', a ferramenta insere marcadores claros entre o conteúdo de cada página.
Preciso configurar uma URL de backend híbrido?
Não é obrigatório; esse campo é opcional para usuários que desejam conectar a ferramenta a uma instância específica do OpenDataLoader.