Fatos principais
- Categoria
- Imagens, áudio e vídeo
- Tipos de entrada
- file, select, text, checkbox
- Tipo de saída
- html
- Cobertura de amostras
- 4
- API disponível
- Yes
Visão geral
O Extrator de imagens e captions PDF é uma ferramenta que automatiza a extração de recursos visuais de documentos PDF. Ao enviar um arquivo, ele exporta as imagens nos formatos PNG ou JPEG, analisa a estrutura do documento e associa automaticamente o texto descritivo (caption) mais próximo a cada figura. O resultado é um relatório HTML navegável, ideal para revisar gráficos, fotos e ilustrações junto com seus respectivos contextos sem precisar copiar e colar manualmente.
Quando usar
- •Quando precisar extrair gráficos e fotos de relatórios ou artigos científicos mantendo o contexto da legenda.
- •Para criar um banco de imagens indexado a partir de manuais técnicos ou livros didáticos em PDF.
- •Quando for necessário revisar todas as figuras de um documento longo sem ter que rolar página por página.
Como funciona
- •Faça o upload do seu arquivo PDF na ferramenta.
- •Escolha o formato de saída das imagens (PNG ou JPEG) e, se desejar, especifique as páginas a serem processadas.
- •Mantenha a opção de árvore estrutural ativada para melhorar a precisão da associação entre imagens e textos.
- •Baixe o relatório HTML gerado, que exibirá todas as imagens extraídas lado a lado com suas respectivas legendas.
Casos de uso
Exemplos
1. Extração de gráficos de relatórios financeiros
Analista Financeiro- Contexto
- Um analista precisa compilar os gráficos de desempenho de um relatório anual de 100 páginas para uma apresentação.
- Problema
- Procurar e recortar manualmente cada gráfico e copiar sua legenda consome muito tempo e está sujeito a erros.
- Como usar
- Faça o upload do relatório PDF, selecione o formato PNG e deixe a opção 'Usar árvore estrutural' ativada.
- Configuração de exemplo
-
imageFormat: png, useStructTree: true - Resultado
- Um arquivo HTML é gerado com todos os gráficos do relatório e suas respectivas legendas, prontos para consulta e uso na apresentação.
2. Catálogo de imagens de manuais técnicos
Redator Técnico- Contexto
- Um redator está atualizando um manual de instruções antigo e precisa de todas as fotos das peças com suas descrições originais.
- Problema
- O documento original só existe em PDF e as imagens precisam ser salvas em JPEG para o novo sistema.
- Como usar
- Envie o manual em PDF, defina o formato da imagem como JPEG e especifique as páginas (ex: 10-50) onde as peças estão listadas.
- Configuração de exemplo
-
imageFormat: jpeg, pages: 10-50 - Resultado
- Obtenção de um índice HTML contendo apenas as fotos das páginas 10 a 50, exportadas em JPEG e pareadas com as descrições das peças.
Testar com amostras
html, pdf, imageHubs relacionados
FAQ
Posso escolher quais páginas do PDF processar?
Sim, você pode usar o campo 'Páginas' para definir intervalos específicos, como '1,3,5-7', extraindo imagens apenas dessas páginas.
Em quais formatos as imagens são exportadas?
Você pode escolher exportar as imagens extraídas nos formatos PNG ou JPEG.
O que é a opção 'Usar árvore estrutural'?
É um recurso que utiliza a estrutura interna do PDF para melhorar a precisão ao associar uma imagem à sua legenda correspondente.
Qual é o formato do arquivo final gerado?
A ferramenta gera um arquivo HTML navegável contendo um índice visual com as imagens e suas legendas associadas.
A ferramenta funciona com PDFs escaneados sem texto pesquisável?
Não, a extração de legendas depende de texto selecionável e estruturado no PDF para associar as palavras às imagens.