OCR de PDF escaneado a Markdown

Convierte PDFs escaneados o basados en imagen a Markdown, priorizando hybrid OCR y degradando con claridad si no esta disponible

Tras subir un PDF escaneado, la herramienta intentara primero OpenDataLoader hybrid OCR para exportarlo como Markdown; si no hay backend hybrid disponible, hara fallback automatico a la extraccion estandar e indicara el motivo en metadata.

Resultados de ejemplo

1 Ejemplos

Convertir un PDF con OCR a Markdown

El sample real produce Markdown reutilizable y usa la ruta local para ser reproducible en el repositorio.

scanned-pdf-ocr-to-markdown-example1.md Ver archivo
Ver parámetros de entrada
{ "pdfFile": "/public/samples/pdf/pdf-ocr-text-layer-example1.pdf", "pages": "", "keepLineBreaks": true, "includePageSeparators": true, "hybridBackendUrl": "", "preferHybridOcr": false }

Click to upload file or drag and drop file here

Maximum file size: 10MB Supported formats: application/pdf

Datos clave

Categoría
IA y generadores
Tipos de entrada
file, text, checkbox
Tipo de salida
file
Cobertura de muestras
4
API disponible
Yes

Resumen

Esta herramienta convierte documentos PDF escaneados o basados en imágenes en archivos Markdown estructurados utilizando tecnología OCR híbrida. Prioriza el uso de OpenDataLoader para garantizar una extracción de texto precisa, ofreciendo un sistema de respaldo automático hacia la extracción estándar en caso de que el motor híbrido no esté disponible.

Cuándo usarlo

  • Cuando necesitas editar el contenido de un documento PDF que solo contiene imágenes o texto no seleccionable.
  • Para digitalizar archivos históricos o documentos impresos escaneados y convertirlos en un formato ligero como Markdown.
  • Al preparar datos de documentos físicos para su uso en sistemas de gestión de conocimiento o blogs estáticos.

Cómo funciona

  • El usuario carga el archivo PDF escaneado y define el rango de páginas específico si es necesario.
  • El sistema aplica OCR híbrido a través de OpenDataLoader para reconocer caracteres y estructuras dentro de las imágenes.
  • Se procesa el texto detectado manteniendo opcionalmente los saltos de línea y añadiendo separadores de página.
  • La herramienta genera un archivo .md descargable con el contenido textual recuperado del PDF original.

Casos de uso

Digitalización de contratos antiguos escaneados para su almacenamiento en repositorios de texto buscables.
Conversión de notas de investigación impresas a formato Markdown para documentación técnica y académica.
Extracción de texto de manuales de usuario en PDF que solo contienen capas de imagen sin texto real.

Ejemplos

1. Digitalización de informes médicos

Investigador clínico
Contexto
El investigador tiene una serie de informes de pacientes antiguos que fueron escaneados como imágenes y necesita buscar términos específicos.
Problema
No puede copiar ni buscar texto dentro de los archivos PDF actuales porque son puramente gráficos.
Cómo usarlo
Sube el PDF del informe, activa la opción 'Preferir OCR hybrid' y procesa el archivo para obtener el texto.
Configuración de ejemplo
pdfFile: informe_2010.pdf, preferHybridOcr: true, keepLineBreaks: true
Resultado
Obtiene un archivo Markdown con todo el texto del informe médico listo para ser indexado y buscado en su base de datos.

2. Conversión de libros de dominio público

Bibliotecario digital
Contexto
Una biblioteca está digitalizando libros antiguos cuyos PDFs son solo fotografías de las páginas originales.
Problema
Necesitan convertir el contenido a un formato compatible con lectores de libros electrónicos y sitios web de archivo.
Cómo usarlo
Carga el libro en formato PDF, especifica el rango de páginas del capítulo y selecciona 'Incluir separadores de página'.
Configuración de ejemplo
pdfFile: libro_antiguo.pdf, pages: '10-50', includePageSeparators: true
Resultado
Un archivo Markdown estructurado por páginas que facilita la edición, corrección y publicación digital del libro.

Probar con muestras

markdown, pdf, image

Hubs relacionados

Preguntas frecuentes

¿Qué sucede si el motor de OCR híbrido no está disponible?

La herramienta realiza un fallback automático a la extracción estándar e informa del motivo en los metadatos.

¿Puedo convertir solo páginas específicas de un PDF largo?

Sí, puedes indicar rangos de páginas como '1,3,5-7' en la configuración de páginas.

¿El formato Markdown conserva las imágenes del PDF?

No, la herramienta se centra en la extracción de texto mediante OCR para generar contenido Markdown puro.

¿Es necesario configurar una URL de backend híbrido?

Es opcional; si no se proporciona, el sistema intentará usar el motor predeterminado o el método de extracción estándar.

¿Se mantienen los saltos de línea originales?

Sí, existe una opción configurable para conservar los saltos de línea del documento original o dejar que el texto fluya.

Documentación de la API

Punto final de la solicitud

POST /es/api/tools/scanned-pdf-ocr-to-markdown

Parámetros de la solicitud

Nombre del parámetro Tipo Requerido Descripción
pdfFile file (Subida requerida) -
pages text No -
keepLineBreaks checkbox No -
includePageSeparators checkbox No -
hybridBackendUrl text No -
preferHybridOcr checkbox No -

Los parámetros de tipo archivo necesitan ser subidos primero vía POST /upload/scanned-pdf-ocr-to-markdown para obtener filePath, luego pasar filePath al campo de archivo correspondiente.

Formato de respuesta

{
  "filePath": "/public/processing/randomid.ext",
  "fileName": "output.ext",
  "contentType": "application/octet-stream",
  "size": 1024,
  "metadata": {
    "key": "value"
  },
  "error": "Error message (optional)",
  "message": "Notification message (optional)"
}
Archivo: Archivo

Documentación de MCP

Agregue este herramienta a su configuración de servidor MCP:

{
  "mcpServers": {
    "elysiatools-scanned-pdf-ocr-to-markdown": {
      "name": "scanned-pdf-ocr-to-markdown",
      "description": "Convierte PDFs escaneados o basados en imagen a Markdown, priorizando hybrid OCR y degradando con claridad si no esta disponible",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=scanned-pdf-ocr-to-markdown",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

Puede encadenar múltiples herramientas, por ejemplo: `https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`, máximo 20 herramientas.

Soporte para enlaces de archivos URL o codificación Base64 para parámetros de archivo.

Si encuentra algún problema, por favor, póngase en contacto con nosotros en [email protected]