Empaquetador RAG y citas para PDF

Convierte un PDF en chunks RAG con pagina, bounding box y metadatos de cita

Sube un PDF y la herramienta ejecuta OpenDataLoader para crear un JSON estructurado. Luego empaqueta parrafos, listas, tablas y encabezados en chunks listos para RAG con pagina, bounding box y contexto de seccion.

Resultados de ejemplo

1 Ejemplos

Preparar un informe financiero para RAG

La prueba real genero 2 chunks y 57 nodos semanticos para citas precisas.

pdf-rag-chunker-citation-pack-example1.json Ver archivo
Ver parámetros de entrada
{ "pdfFile": "/public/samples/pdf/financial-report-example1.pdf", "chunkMode": "heading-aware", "maxChars": 900, "useStructTree": true, "sanitizeSensitiveData": false, "includeTableNodes": true }

Click to upload file or drag and drop file here

Maximum file size: 10MB Supported formats: application/pdf

Datos clave

Categoría
IA y generadores
Tipos de entrada
file, select, number, checkbox
Tipo de salida
file
Cobertura de muestras
4
API disponible
Yes

Resumen

Convierte documentos PDF en fragmentos (chunks) optimizados para sistemas RAG (Generación Aumentada por Recuperación). Esta herramienta extrae párrafos, listas y tablas, agrupándolos de forma inteligente con metadatos precisos como números de página, coordenadas (bounding boxes) y rutas de encabezados, generando un archivo JSON listo para bases de datos vectoriales y sistemas de chat con citas.

Cuándo usarlo

  • Cuando necesitas procesar manuales o informes financieros para alimentar una base de datos vectorial.
  • Al construir asistentes de IA que requieren citar la página exacta y la ubicación del texto original en un PDF.
  • Para dividir documentos largos manteniendo el contexto estructural de los encabezados y las tablas.

Cómo funciona

  • Sube tu archivo PDF a la herramienta.
  • Configura el modo de fragmentación (por encabezados o por elemento) y ajusta el límite máximo de caracteres por bloque.
  • Selecciona opciones adicionales como incluir tablas, usar el árbol estructural o sanitizar datos sensibles.
  • Descarga un archivo JSON estructurado con los fragmentos listos para integrarse en tu flujo de trabajo RAG.

Casos de uso

Preparación de informes financieros y contratos legales para sistemas de búsqueda semántica.
Creación de chatbots corporativos que responden preguntas basándose en manuales internos y citan la fuente.
Extracción estructurada de datos de investigaciones académicas para análisis automatizado.

Ejemplos

1. Preparación de un informe financiero para RAG

Ingeniero de IA
Contexto
Un equipo de desarrollo está creando un chatbot para analizar informes financieros anuales.
Problema
Necesitan dividir el PDF en fragmentos que conserven el contexto de las secciones y permitan citar la página exacta de los datos.
Cómo usarlo
Sube el informe PDF, selecciona el modo 'Agrupar por encabezados', establece el máximo de caracteres en 900 y activa la inclusión de tablas.
Configuración de ejemplo
Modo: Agrupar por encabezados, Caracteres máximos: 900, Incluir tablas: Sí
Resultado
Un archivo JSON con fragmentos contextualizados, donde cada bloque incluye el texto, la página y las coordenadas, ideal para la base de datos vectorial.

2. Procesamiento de manuales técnicos con datos sensibles

Desarrollador Backend
Contexto
Una empresa quiere hacer que sus manuales de usuario sean consultables mediante IA, pero algunos documentos contienen información interna confidencial.
Problema
Extraer el texto en bloques pequeños y limpiar posibles datos sensibles antes de la indexación.
Cómo usarlo
Sube el manual en PDF, elige 'Un elemento por bloque' y activa la opción 'Sanitizar datos sensibles'.
Configuración de ejemplo
Modo: Un elemento por bloque, Sanitizar datos sensibles: Sí
Resultado
Se genera un JSON donde cada párrafo o lista es un fragmento independiente, con los datos sensibles filtrados y listos para su indexación segura.

Probar con muestras

pdf, file

Hubs relacionados

Preguntas frecuentes

¿Qué formatos de archivo admite esta herramienta?

La herramienta admite exclusivamente archivos PDF.

¿Qué es el modo de fragmentación por encabezados (heading-aware)?

Es un modo que agrupa el contenido bajo su encabezado correspondiente, preservando el contexto jerárquico del documento original.

¿Se incluyen las tablas en los fragmentos generados?

Sí, puedes activar la opción de incluir tablas para que se extraigan y empaqueten junto con el texto.

¿Para qué sirven las coordenadas (bounding boxes) en el JSON?

Permiten a tu aplicación de IA resaltar visualmente la ubicación exacta de la información citada en el PDF original.

¿Puedo limitar el tamaño de los fragmentos?

Sí, puedes establecer un límite máximo de caracteres por bloque (entre 200 y 4000) para adaptarlo a los requisitos de tu modelo de lenguaje.

Documentación de la API

Punto final de la solicitud

POST /es/api/tools/pdf-rag-chunker-citation-pack

Parámetros de la solicitud

Nombre del parámetro Tipo Requerido Descripción
pdfFile file (Subida requerida) -
chunkMode select No -
maxChars number No -
useStructTree checkbox No -
sanitizeSensitiveData checkbox No -
includeTableNodes checkbox No -

Los parámetros de tipo archivo necesitan ser subidos primero vía POST /upload/pdf-rag-chunker-citation-pack para obtener filePath, luego pasar filePath al campo de archivo correspondiente.

Formato de respuesta

{
  "filePath": "/public/processing/randomid.ext",
  "fileName": "output.ext",
  "contentType": "application/octet-stream",
  "size": 1024,
  "metadata": {
    "key": "value"
  },
  "error": "Error message (optional)",
  "message": "Notification message (optional)"
}
Archivo: Archivo

Documentación de MCP

Agregue este herramienta a su configuración de servidor MCP:

{
  "mcpServers": {
    "elysiatools-pdf-rag-chunker-citation-pack": {
      "name": "pdf-rag-chunker-citation-pack",
      "description": "Convierte un PDF en chunks RAG con pagina, bounding box y metadatos de cita",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=pdf-rag-chunker-citation-pack",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

Puede encadenar múltiples herramientas, por ejemplo: `https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`, máximo 20 herramientas.

Soporte para enlaces de archivos URL o codificación Base64 para parámetros de archivo.

Si encuentra algún problema, por favor, póngase en contacto con nosotros en [email protected]