Fatos principais
- Categoria
- Imagens, áudio e vídeo
- Tipos de entrada
- file, select, text, checkbox
- Tipo de saída
- html
- Cobertura de amostras
- 4
- API disponível
- Yes
Visão geral
O Extrator de imagens e captions PDF é uma ferramenta especializada que identifica e exporta elementos visuais de documentos PDF, associando automaticamente cada imagem à sua legenda correspondente. Ele processa a estrutura semântica do arquivo para gerar um relatório HTML navegável, facilitando a revisão e a reutilização de figuras e metadados de página.
Quando usar
- •Quando você precisa extrair figuras de relatórios técnicos ou livros didáticos mantendo o contexto das legendas.
- •Para criar um catálogo visual rápido de todas as imagens contidas em um documento PDF extenso.
- •Ao preparar materiais de apresentação que exigem imagens e suas descrições originais extraídas de documentos de referência.
Como funciona
- •Carregue o arquivo PDF e selecione o formato de saída das imagens entre PNG ou JPEG.
- •O sistema analisa a árvore estrutural do PDF para localizar imagens e blocos de texto próximos em cada página.
- •A ferramenta associa cada imagem à legenda mais provável com base na posição espacial e na hierarquia do documento.
- •Um arquivo HTML é gerado contendo o índice de imagens, as legendas extraídas e os metadados de navegação.
Casos de uso
Exemplos
1. Extração de Figuras de Relatório Técnico
Engenheiro Civil- Contexto
- O engenheiro possui um relatório de inspeção de 200 páginas com centenas de fotos de obras e diagramas técnicos.
- Problema
- Ele precisa isolar todas as fotos com suas respectivas descrições para anexar a um novo laudo de conformidade.
- Como usar
- Fez o upload do PDF, selecionou o formato JPEG e ativou a opção de árvore estrutural para garantir a precisão das legendas.
- Configuração de exemplo
-
imageFormat: jpeg, useStructTree: true - Resultado
- Um arquivo HTML organizado com todas as fotos e legendas listadas por página, prontas para cópia e colagem.
2. Catálogo de Produtos para E-commerce
Analista de Marketing- Contexto
- A empresa lançou um catálogo em PDF e o analista precisa das imagens dos produtos para atualizar o site.
- Problema
- As imagens precisam estar vinculadas aos nomes e códigos dos produtos que aparecem logo abaixo de cada foto no documento.
- Como usar
- Carregou o catálogo, definiu o intervalo de páginas dos produtos e escolheu o formato PNG para manter a qualidade.
- Configuração de exemplo
-
imageFormat: png, pages: 10-50 - Resultado
- Uma galeria HTML navegável com imagens de alta qualidade e os nomes dos produtos extraídos automaticamente como captions.
Testar com amostras
html, pdf, imageHubs relacionados
FAQ
Quais formatos de imagem são suportados para exportação?
Você pode optar por exportar as imagens extraídas nos formatos PNG ou JPEG.
Posso extrair imagens de apenas algumas páginas específicas?
Sim, utilize o campo 'Páginas' para especificar números ou intervalos, como '1, 3, 5-10'.
O que faz a opção 'Usar árvore estrutural'?
Ela utiliza a hierarquia interna do PDF para aumentar a precisão na vinculação entre a imagem e sua legenda correta.
Qual é o formato do resultado final entregue pela ferramenta?
A ferramenta gera um pacote em formato HTML que permite navegar visualmente pelas imagens e seus respectivos textos.
A ferramenta funciona com qualquer tipo de PDF?
Funciona com PDFs que contenham camadas de imagem e texto; arquivos protegidos por senha devem ser desbloqueados antes do envio.