Datos clave
- Categoría
- IA y generadores
- Tipos de entrada
- file, select, number, checkbox
- Tipo de salida
- file
- Cobertura de muestras
- 4
- API disponible
- Yes
Resumen
Convierte documentos PDF en fragmentos (chunks) optimizados para sistemas RAG (Generación Aumentada por Recuperación). Esta herramienta extrae párrafos, listas y tablas, agrupándolos de forma inteligente con metadatos precisos como números de página, coordenadas (bounding boxes) y rutas de encabezados, generando un archivo JSON listo para bases de datos vectoriales y sistemas de chat con citas.
Cuándo usarlo
- •Cuando necesitas procesar manuales o informes financieros para alimentar una base de datos vectorial.
- •Al construir asistentes de IA que requieren citar la página exacta y la ubicación del texto original en un PDF.
- •Para dividir documentos largos manteniendo el contexto estructural de los encabezados y las tablas.
Cómo funciona
- •Sube tu archivo PDF a la herramienta.
- •Configura el modo de fragmentación (por encabezados o por elemento) y ajusta el límite máximo de caracteres por bloque.
- •Selecciona opciones adicionales como incluir tablas, usar el árbol estructural o sanitizar datos sensibles.
- •Descarga un archivo JSON estructurado con los fragmentos listos para integrarse en tu flujo de trabajo RAG.
Casos de uso
Ejemplos
1. Preparación de un informe financiero para RAG
Ingeniero de IA- Contexto
- Un equipo de desarrollo está creando un chatbot para analizar informes financieros anuales.
- Problema
- Necesitan dividir el PDF en fragmentos que conserven el contexto de las secciones y permitan citar la página exacta de los datos.
- Cómo usarlo
- Sube el informe PDF, selecciona el modo 'Agrupar por encabezados', establece el máximo de caracteres en 900 y activa la inclusión de tablas.
- Configuración de ejemplo
-
Modo: Agrupar por encabezados, Caracteres máximos: 900, Incluir tablas: Sí - Resultado
- Un archivo JSON con fragmentos contextualizados, donde cada bloque incluye el texto, la página y las coordenadas, ideal para la base de datos vectorial.
2. Procesamiento de manuales técnicos con datos sensibles
Desarrollador Backend- Contexto
- Una empresa quiere hacer que sus manuales de usuario sean consultables mediante IA, pero algunos documentos contienen información interna confidencial.
- Problema
- Extraer el texto en bloques pequeños y limpiar posibles datos sensibles antes de la indexación.
- Cómo usarlo
- Sube el manual en PDF, elige 'Un elemento por bloque' y activa la opción 'Sanitizar datos sensibles'.
- Configuración de ejemplo
-
Modo: Un elemento por bloque, Sanitizar datos sensibles: Sí - Resultado
- Se genera un JSON donde cada párrafo o lista es un fragmento independiente, con los datos sensibles filtrados y listos para su indexación segura.
Probar con muestras
pdf, fileHubs relacionados
Preguntas frecuentes
¿Qué formatos de archivo admite esta herramienta?
La herramienta admite exclusivamente archivos PDF.
¿Qué es el modo de fragmentación por encabezados (heading-aware)?
Es un modo que agrupa el contenido bajo su encabezado correspondiente, preservando el contexto jerárquico del documento original.
¿Se incluyen las tablas en los fragmentos generados?
Sí, puedes activar la opción de incluir tablas para que se extraigan y empaqueten junto con el texto.
¿Para qué sirven las coordenadas (bounding boxes) en el JSON?
Permiten a tu aplicación de IA resaltar visualmente la ubicación exacta de la información citada en el PDF original.
¿Puedo limitar el tamaño de los fragmentos?
Sí, puedes establecer un límite máximo de caracteres por bloque (entre 200 y 4000) para adaptarlo a los requisitos de tu modelo de lenguaje.