Extractor de imagenes y captions PDF

Extrae imagenes PDF, empareja captions cercanos y genera un indice HTML navegable

Tras subir un PDF, la herramienta exporta los recursos visuales, analiza el JSON estructurado y asocia captions cercanos a cada imagen segun pagina y posicion antes de generar un informe HTML navegable.

Resultados de ejemplo

1 Ejemplos

Extraer imagenes y captions cercanos

El sample real genero un informe HTML navegable con imagenes y captions.

pdf-image-caption-extractor-example1.html Ver archivo
Ver parámetros de entrada
{ "pdfFile": "/public/samples/pdf/pdf-image-caption-extractor-source-example1.pdf", "imageFormat": "png", "pages": "", "useStructTree": true }

Click to upload file or drag and drop file here

Maximum file size: 10MB Supported formats: application/pdf

Datos clave

Categoría
Imágenes, audio y video
Tipos de entrada
file, select, text, checkbox
Tipo de salida
html
Cobertura de muestras
4
API disponible
Yes

Resumen

Esta herramienta permite extraer automáticamente todas las imágenes de un documento PDF, asociándolas con sus respectivos pies de foto o leyendas mediante el análisis de la estructura semántica del archivo. El resultado es un paquete HTML navegable que organiza visualmente los recursos gráficos y su contexto textual original de forma eficiente.

Cuándo usarlo

  • Cuando necesitas recopilar figuras y gráficos de informes técnicos o libros de texto sin perder su descripción contextual.
  • Al digitalizar catálogos o manuales donde las imágenes deben estar correctamente etiquetadas para su posterior archivo o reutilización.
  • Para auditar el contenido visual de documentos extensos mediante un índice HTML centralizado y fácil de revisar.

Cómo funciona

  • Sube el archivo PDF y selecciona el formato de salida deseado para las imágenes extraídas, ya sea PNG o JPEG.
  • El sistema analiza el árbol estructural del PDF para identificar la posición exacta de cada imagen y el texto circundante en cada página.
  • La herramienta vincula automáticamente cada imagen con el pie de foto más cercano basándose en la proximidad espacial y la jerarquía lógica del documento.
  • Se genera un archivo HTML interactivo que muestra todas las imágenes extraídas junto a sus descripciones y metadatos de página.

Casos de uso

Investigadores que extraen figuras de artículos científicos para incluirlas en bases de datos de referencia con su contexto original.
Diseñadores que necesitan recuperar activos visuales de presentaciones antiguas manteniendo las descripciones técnicas asociadas.
Equipos de documentación técnica que migran manuales complejos de formato PDF a sistemas de gestión de contenidos web.

Ejemplos

1. Extracción de figuras para tesis académica

Estudiante de doctorado
Contexto
Cuenta con un PDF de 200 páginas con gráficos complejos y necesita citar cada uno con su descripción exacta en su investigación.
Problema
Copiar y pegar manualmente cada imagen y su leyenda es un proceso lento y propenso a errores de referencia.
Cómo usarlo
Sube el PDF de la tesis, selecciona el formato PNG y activa la opción de árbol estructural para asegurar que cada gráfico mantenga su descripción.
Configuración de ejemplo
imageFormat: "png", useStructTree: true
Resultado
Un archivo HTML con todas las figuras numeradas y sus pies de foto vinculados, listos para ser organizados en la bibliografía.

2. Auditoría de activos en catálogos comerciales

Gestor de contenido
Contexto
Una empresa tiene catálogos de productos extensos en PDF y necesita verificar que todas las fotos correspondan a sus descripciones técnicas.
Problema
Revisar página por página en un lector de PDF estándar dificulta la comparación rápida y la detección de errores en las leyendas.
Cómo usarlo
Sube el catálogo, define el rango de páginas de la sección de productos y procesa la extracción para generar el índice visual.
Configuración de ejemplo
pages: "10-50", imageFormat: "jpeg"
Resultado
Un índice visual navegable en HTML que permite validar rápidamente la relación entre cada producto y su descripción técnica.

Probar con muestras

html, pdf, image

Hubs relacionados

Preguntas frecuentes

¿Qué formatos de imagen soporta la extracción?

Puedes elegir exportar las imágenes extraídas en formato PNG o JPEG según tus necesidades de calidad o compresión.

¿Puedo procesar solo páginas específicas del documento?

Sí, la herramienta permite definir rangos de páginas específicos, por ejemplo '1, 3, 5-10', para limitar la extracción.

¿Qué es la opción de árbol estructural?

Es una función que utiliza la jerarquía interna del PDF para mejorar la precisión al emparejar leyendas con sus imágenes correspondientes.

¿El resultado incluye el texto original de la leyenda?

Sí, el informe HTML generado muestra el texto identificado como pie de foto justo al lado de cada imagen extraída.

¿Es necesario que el PDF esté etiquetado?

No es obligatorio, pero los documentos con etiquetas estructurales ofrecen resultados mucho más precisos en la asociación de captions.

Documentación de la API

Punto final de la solicitud

POST /es/api/tools/pdf-image-caption-extractor

Parámetros de la solicitud

Nombre del parámetro Tipo Requerido Descripción
pdfFile file (Subida requerida) -
imageFormat select No -
pages text No -
useStructTree checkbox No -

Los parámetros de tipo archivo necesitan ser subidos primero vía POST /upload/pdf-image-caption-extractor para obtener filePath, luego pasar filePath al campo de archivo correspondiente.

Formato de respuesta

{
  "result": "
Processed HTML content
", "error": "Error message (optional)", "message": "Notification message (optional)", "metadata": { "key": "value" } }
HTML: HTML

Documentación de MCP

Agregue este herramienta a su configuración de servidor MCP:

{
  "mcpServers": {
    "elysiatools-pdf-image-caption-extractor": {
      "name": "pdf-image-caption-extractor",
      "description": "Extrae imagenes PDF, empareja captions cercanos y genera un indice HTML navegable",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=pdf-image-caption-extractor",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

Puede encadenar múltiples herramientas, por ejemplo: `https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`, máximo 20 herramientas.

Soporte para enlaces de archivos URL o codificación Base64 para parámetros de archivo.

Si encuentra algún problema, por favor, póngase en contacto con nosotros en [email protected]