Convertidor de PDF a Markdown estructurado

Convierte PDF a Markdown estructurado con OpenDataLoader y opciones para HTML, imagenes y separadores de pagina

Tras subir un PDF, la herramienta ejecuta OpenDataLoader para generar Markdown estructurado. Puedes elegir Markdown simple, Markdown con HTML o Markdown con referencias de imagen, ademas de controlar saltos de linea, separadores de pagina, estructura etiquetada y sanitizacion.

Resultados de ejemplo

1 Ejemplos

Convertir una guia de marca PDF a Markdown

El sample real genero un archivo Markdown de 596 bytes reutilizable.

pdf-to-structured-markdown-converter-example1.md Ver archivo
Ver parámetros de entrada
{ "pdfFile": "/public/samples/pdf/brand-guidelines-pdf-example1.pdf", "markdownOutput": "markdown", "keepLineBreaks": true, "useStructTree": true, "includePageSeparators": true, "sanitizeSensitiveData": false, "pages": "" }

Click to upload file or drag and drop file here

Maximum file size: 10MB Supported formats: application/pdf

Datos clave

Categoría
Desarrollo y Web
Tipos de entrada
file, select, checkbox, text
Tipo de salida
file
Cobertura de muestras
4
API disponible
Yes

Resumen

Convierte documentos PDF en archivos Markdown estructurados de forma rápida y precisa utilizando OpenDataLoader. Esta herramienta permite extraer texto, conservar la estructura original del documento y personalizar la salida con opciones para incluir HTML, referencias de imágenes, separadores de página y sanitización de datos sensibles, ideal para migraciones de contenido y documentación técnica.

Cuándo usarlo

  • Cuando necesitas migrar manuales o guías en PDF a un sistema de documentación basado en Markdown.
  • Para extraer texto estructurado de informes en PDF y procesarlo en pipelines de inteligencia artificial.
  • Cuando requieres convertir documentos paginados conservando la estructura de encabezados, saltos de línea y referencias de imágenes.

Cómo funciona

  • Sube tu archivo PDF utilizando el campo de entrada principal.
  • Selecciona el formato de salida deseado (Markdown plano, con HTML o con imágenes) y especifica las páginas a procesar si es necesario.
  • Ajusta las opciones avanzadas, como conservar saltos de línea, usar el árbol estructural o sanitizar datos sensibles.
  • Haz clic en procesar para generar y descargar tu archivo Markdown estructurado.

Casos de uso

Migración de guías de marca y manuales corporativos desde formato PDF a repositorios de GitHub o wikis internas.
Preparación de corpus de texto estructurado a partir de documentos de investigación para entrenar modelos de lenguaje (LLMs).
Extracción de artículos y reportes manteniendo la separación por páginas para facilitar la revisión editorial.

Ejemplos

1. Conversión de guía de marca a Markdown

Redactor Técnico
Contexto
El equipo de diseño entregó la nueva guía de marca en PDF, pero el equipo de desarrollo necesita el contenido en el repositorio de documentación.
Problema
Extraer el texto manteniendo la estructura de la guía sin tener que copiar y pegar manualmente.
Cómo usarlo
Sube el PDF de la guía de marca, selecciona 'Markdown plano' y activa 'Incluir separadores de página'.
Configuración de ejemplo
Salida Markdown: markdown, Conservar saltos de línea: true, Usar árbol estructural: true
Resultado
Se genera un archivo Markdown limpio y estructurado, listo para ser integrado en el sistema de documentación del equipo.

2. Extracción de datos de un informe financiero

Analista de Datos
Contexto
Se requiere procesar un informe financiero de 50 páginas, pero solo interesan las páginas del resumen ejecutivo.
Problema
Extraer texto de páginas específicas y ocultar información confidencial antes de compartirlo.
Cómo usarlo
Sube el informe PDF, define el rango de páginas '1-5' y activa la opción 'Sanitizar datos sensibles'.
Configuración de ejemplo
Páginas: 1-5, Sanitizar datos sensibles: true, Salida Markdown: markdown-with-html
Resultado
Un archivo Markdown que contiene únicamente el resumen ejecutivo con formato HTML básico y los datos sensibles enmascarados.

Probar con muestras

html, markdown, pdf

Hubs relacionados

Preguntas frecuentes

¿Puedo convertir solo páginas específicas del PDF?

Sí, puedes usar el campo 'Páginas' para indicar rangos específicos, por ejemplo, '1,3,5-7'.

¿Qué hace la opción de usar árbol estructural?

Utiliza la estructura interna del PDF (Tagged PDF) para identificar correctamente encabezados, párrafos y listas, mejorando la calidad del Markdown.

¿Es posible mantener las imágenes del PDF original?

Sí, seleccionando la salida 'Markdown con imágenes', la herramienta extraerá y generará las referencias correspondientes en el documento.

¿Qué significa sanitizar datos sensibles?

Es una función que detecta y oculta automáticamente información confidencial durante la conversión del texto.

¿Puedo incluir código HTML en el resultado?

Sí, eligiendo 'Markdown con HTML' se conservarán ciertos elementos de formato complejo que Markdown plano no soporta nativamente.

Documentación de la API

Punto final de la solicitud

POST /es/api/tools/pdf-to-structured-markdown-converter

Parámetros de la solicitud

Nombre del parámetro Tipo Requerido Descripción
pdfFile file (Subida requerida) -
markdownOutput select No -
keepLineBreaks checkbox No -
useStructTree checkbox No -
includePageSeparators checkbox No -
sanitizeSensitiveData checkbox No -
pages text No -

Los parámetros de tipo archivo necesitan ser subidos primero vía POST /upload/pdf-to-structured-markdown-converter para obtener filePath, luego pasar filePath al campo de archivo correspondiente.

Formato de respuesta

{
  "filePath": "/public/processing/randomid.ext",
  "fileName": "output.ext",
  "contentType": "application/octet-stream",
  "size": 1024,
  "metadata": {
    "key": "value"
  },
  "error": "Error message (optional)",
  "message": "Notification message (optional)"
}
Archivo: Archivo

Documentación de MCP

Agregue este herramienta a su configuración de servidor MCP:

{
  "mcpServers": {
    "elysiatools-pdf-to-structured-markdown-converter": {
      "name": "pdf-to-structured-markdown-converter",
      "description": "Convierte PDF a Markdown estructurado con OpenDataLoader y opciones para HTML, imagenes y separadores de pagina",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=pdf-to-structured-markdown-converter",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

Puede encadenar múltiples herramientas, por ejemplo: `https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`, máximo 20 herramientas.

Soporte para enlaces de archivos URL o codificación Base64 para parámetros de archivo.

Si encuentra algún problema, por favor, póngase en contacto con nosotros en [email protected]