Datos clave
- Categoría
- IA y generadores
- Tipos de entrada
- file, text, checkbox
- Tipo de salida
- file
- Cobertura de muestras
- 4
- API disponible
- Yes
Resumen
Esta herramienta convierte documentos PDF escaneados o basados en imágenes en archivos Markdown estructurados utilizando tecnología OCR híbrida. Prioriza el uso de OpenDataLoader para garantizar una extracción de texto precisa, ofreciendo un sistema de respaldo automático hacia la extracción estándar en caso de que el motor híbrido no esté disponible.
Cuándo usarlo
- •Cuando necesitas editar el contenido de un documento PDF que solo contiene imágenes o texto no seleccionable.
- •Para digitalizar archivos históricos o documentos impresos escaneados y convertirlos en un formato ligero como Markdown.
- •Al preparar datos de documentos físicos para su uso en sistemas de gestión de conocimiento o blogs estáticos.
Cómo funciona
- •El usuario carga el archivo PDF escaneado y define el rango de páginas específico si es necesario.
- •El sistema aplica OCR híbrido a través de OpenDataLoader para reconocer caracteres y estructuras dentro de las imágenes.
- •Se procesa el texto detectado manteniendo opcionalmente los saltos de línea y añadiendo separadores de página.
- •La herramienta genera un archivo .md descargable con el contenido textual recuperado del PDF original.
Casos de uso
Ejemplos
1. Digitalización de informes médicos
Investigador clínico- Contexto
- El investigador tiene una serie de informes de pacientes antiguos que fueron escaneados como imágenes y necesita buscar términos específicos.
- Problema
- No puede copiar ni buscar texto dentro de los archivos PDF actuales porque son puramente gráficos.
- Cómo usarlo
- Sube el PDF del informe, activa la opción 'Preferir OCR hybrid' y procesa el archivo para obtener el texto.
- Configuración de ejemplo
-
pdfFile: informe_2010.pdf, preferHybridOcr: true, keepLineBreaks: true - Resultado
- Obtiene un archivo Markdown con todo el texto del informe médico listo para ser indexado y buscado en su base de datos.
2. Conversión de libros de dominio público
Bibliotecario digital- Contexto
- Una biblioteca está digitalizando libros antiguos cuyos PDFs son solo fotografías de las páginas originales.
- Problema
- Necesitan convertir el contenido a un formato compatible con lectores de libros electrónicos y sitios web de archivo.
- Cómo usarlo
- Carga el libro en formato PDF, especifica el rango de páginas del capítulo y selecciona 'Incluir separadores de página'.
- Configuración de ejemplo
-
pdfFile: libro_antiguo.pdf, pages: '10-50', includePageSeparators: true - Resultado
- Un archivo Markdown estructurado por páginas que facilita la edición, corrección y publicación digital del libro.
Probar con muestras
markdown, pdf, imageHubs relacionados
Preguntas frecuentes
¿Qué sucede si el motor de OCR híbrido no está disponible?
La herramienta realiza un fallback automático a la extracción estándar e informa del motivo en los metadatos.
¿Puedo convertir solo páginas específicas de un PDF largo?
Sí, puedes indicar rangos de páginas como '1,3,5-7' en la configuración de páginas.
¿El formato Markdown conserva las imágenes del PDF?
No, la herramienta se centra en la extracción de texto mediante OCR para generar contenido Markdown puro.
¿Es necesario configurar una URL de backend híbrido?
Es opcional; si no se proporciona, el sistema intentará usar el motor predeterminado o el método de extracción estándar.
¿Se mantienen los saltos de línea originales?
Sí, existe una opción configurable para conservar los saltos de línea del documento original o dejar que el texto fluya.