PDF a Texto Avanzado

Conversor avanzado de PDF a texto con selección de páginas, opciones de formato y extracción de metadatos

Conversión avanzada de PDF a texto con amplias opciones de personalización.

Resultados de ejemplo

2 Ejemplos

Extraer texto con rango de páginas

Extrae texto de páginas específicas de un documento PDF

pdf-to-text-output.txt Ver archivo
Ver parámetros de entrada
{ "sourceFile": "/public/samples/pdf/document.pdf", "pageRange": "1-5,10", "outputFormat": "structured", "includeMetadata": true }

Exportar a JSON

Exporta el contenido y metadatos del PDF en formato JSON

pdf-to-text-output.json Ver archivo
Ver parámetros de entrada
{ "sourceFile": "/public/samples/pdf/book.pdf", "outputFormat": "json", "includeMetadata": true, "pageRange": "all" }

Click to upload file or drag and drop file here

Maximum file size: 100MB Supported formats: application/pdf

Datos clave

Categoría
Documentos y PDF
Tipos de entrada
file, text, select, checkbox
Tipo de salida
file
Cobertura de muestras
4
API disponible
Yes

Resumen

Extraiga texto de sus documentos PDF de forma precisa y personalizada con nuestra herramienta avanzada de conversión. Permite definir rangos de páginas específicos, estructurar el contenido en formatos como texto plano o JSON, limpiar el texto resultante y conservar o descartar metadatos y encabezados según sus necesidades de procesamiento.

Cuándo usarlo

  • Cuando necesite extraer texto únicamente de páginas específicas de un documento PDF largo en lugar de procesar todo el archivo.
  • Al requerir la exportación de datos y metadatos de un PDF directamente a un formato estructurado o JSON para su posterior análisis.
  • Para limpiar el texto extraído eliminando ruido visual o conservando la estructura exacta de los párrafos y números de línea.

Cómo funciona

  • Suba el archivo PDF que desea procesar desde su dispositivo.
  • Defina el rango de páginas a extraer y configure las opciones de formato de salida (texto plano, estructurado o JSON) y el nivel de limpieza.
  • Active o desactive las casillas para incluir metadatos, números de línea, encabezados de página o preservar la estructura de los párrafos.
  • Haga clic en procesar para descargar el archivo de texto o JSON generado con el contenido extraído.

Casos de uso

Extracción de capítulos específicos de libros o manuales en PDF para su lectura en dispositivos de tinta electrónica.
Conversión de informes financieros en PDF a formato JSON para importar los datos estructurados en bases de datos o herramientas de análisis.
Limpieza y preparación de textos académicos digitalizados para alimentar modelos de procesamiento de lenguaje natural (NLP).

Ejemplos

1. Extracción selectiva de un manual técnico

Ingeniero de soporte
Contexto
Un ingeniero necesita extraer las instrucciones de mantenimiento de un manual de 500 páginas, pero solo le interesan las páginas de la sección de solución de problemas.
Problema
Extraer texto limpio únicamente de las páginas 45 a 60 y de la página 82, sin incluir encabezados repetitivos de página.
Cómo usarlo
Sube el PDF del manual, define el rango de páginas como '45-60,82', selecciona el formato de salida 'plain' y desmarca la opción de agregar encabezados de página.
Configuración de ejemplo
{
  "pageRange": "45-60,82",
  "outputFormat": "plain",
  "includePageHeaders": false,
  "cleanLevel": "gentle"
}
Resultado
Un archivo de texto plano que contiene exclusivamente el contenido de las páginas seleccionadas, listo para su consulta rápida.

2. Conversión de informes a JSON para análisis de datos

Analista de datos
Contexto
Un analista recibe mensualmente informes de mercado en formato PDF y necesita procesar la información de forma automatizada en un script de Python.
Problema
Convertir el contenido textual y los metadatos del PDF en un formato estructurado fácil de parsear.
Cómo usarlo
Sube el informe PDF, selecciona 'JSON' como formato de salida y activa la casilla para incluir metadatos del PDF.
Configuración de ejemplo
{
  "outputFormat": "json",
  "includeMetadata": true,
  "pageRange": "all"
}
Resultado
Un archivo JSON estructurado que contiene las propiedades del documento y el texto de cada página indexado para su fácil lectura mediante programación.

Probar con muestras

pdf, text, barcode

Hubs relacionados

Preguntas frecuentes

¿Qué formatos de salida admite la herramienta?

Admite texto plano (plain), texto estructurado con separadores y formato JSON.

¿Cómo puedo extraer solo páginas específicas de mi PDF?

Utilice la opción de rango de páginas indicando números individuales o rangos separados por comas, por ejemplo: '1-5,7,10-12'.

¿Qué hace la opción de limpieza de texto?

Permite eliminar caracteres no deseados o ruido del texto extraído aplicando un nivel de limpieza suave (gentle) o agresivo (aggressive).

¿Es posible conservar los metadatos del archivo PDF?

Sí, al activar la opción de incluir metadatos, la información del documento se añadirá al archivo de salida.

¿Puedo mantener la estructura original de los párrafos?

Sí, la opción para preservar la estructura de párrafos mantiene el diseño y los saltos de línea lógicos del documento original.

Documentación de la API

Punto final de la solicitud

POST /es/api/tools/pdf-to-text-advanced

Parámetros de la solicitud

Nombre del parámetro Tipo Requerido Descripción
sourceFile file (Subida requerida) -
pageRange text No -
outputFormat select No -
cleanLevel select No -
includeMetadata checkbox No -
includePageHeaders checkbox No -
includeLineNumbers checkbox No -
preserveParagraphStructure checkbox No -

Los parámetros de tipo archivo necesitan ser subidos primero vía POST /upload/pdf-to-text-advanced para obtener filePath, luego pasar filePath al campo de archivo correspondiente.

Formato de respuesta

{
  "filePath": "/public/processing/randomid.ext",
  "fileName": "output.ext",
  "contentType": "application/octet-stream",
  "size": 1024,
  "metadata": {
    "key": "value"
  },
  "error": "Error message (optional)",
  "message": "Notification message (optional)"
}
Archivo: Archivo

Documentación de MCP

Agregue este herramienta a su configuración de servidor MCP:

{
  "mcpServers": {
    "elysiatools-pdf-to-text-advanced": {
      "name": "pdf-to-text-advanced",
      "description": "Conversor avanzado de PDF a texto con selección de páginas, opciones de formato y extracción de metadatos",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=pdf-to-text-advanced",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

Puede encadenar múltiples herramientas, por ejemplo: `https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`, máximo 20 herramientas.

Soporte para enlaces de archivos URL o codificación Base64 para parámetros de archivo.

Si encuentra algún problema, por favor, póngase en contacto con nosotros en [email protected]