Capa OCR de texto PDF

Agrega capa de texto OCR a PDF escaneado para buscar/copiar contenido

Rasteriza paginas PDF a imagenes, ejecuta OCR con Tesseract por pagina y combina en un PDF buscable.

Resultados de ejemplo

2 Ejemplos

Capa OCR estandar

Agrega capa OCR en ingles con 300 DPI y segmentacion por defecto

pdf-ocr-text-layer-example1.pdf Ver archivo
Ver parámetros de entrada
{ "sourceFile": "/Users/quyue/www/elysia-tools/public/samples/pdf/pdf-2026-02-19-source-4pages.pdf", "language": "eng", "dpi": 300, "oem": 1, "psm": 3 }

OCR rapido con DPI bajo

Usa 200 DPI y psm=6 para procesar mas rapido y reducir el tamano final

pdf-ocr-text-layer-example2.pdf Ver archivo
Ver parámetros de entrada
{ "sourceFile": "/Users/quyue/www/elysia-tools/public/samples/pdf/pdf-2026-02-19-source-4pages.pdf", "language": "eng", "dpi": 200, "oem": 1, "psm": 6 }

Click to upload file or drag and drop file here

Maximum file size: 500MB Supported formats: application/pdf

Datos clave

Categoría
Documentos y PDF
Tipos de entrada
file, text, number
Tipo de salida
file
Cobertura de muestras
4
API disponible
Yes

Resumen

Transforma tus documentos PDF escaneados en archivos inteligentes y editables añadiendo una capa de texto OCR. Esta herramienta utiliza tecnología Tesseract para reconocer caracteres en imágenes, permitiéndote buscar, seleccionar y copiar texto directamente desde documentos que antes eran solo imágenes.

Cuándo usarlo

  • Cuando necesitas extraer información de documentos escaneados o facturas en formato PDF.
  • Para hacer que archivos PDF antiguos o archivados sean indexables y buscables por palabras clave.
  • Al requerir copiar texto de un documento físico que fue digitalizado sin reconocimiento de caracteres.

Cómo funciona

  • Sube tu archivo PDF escaneado a la plataforma.
  • Configura los parámetros de idioma, DPI y modos de segmentación según la calidad de tu documento.
  • El sistema rasteriza las páginas, ejecuta el motor OCR de Tesseract y genera un nuevo PDF con una capa de texto superpuesta.
  • Descarga tu archivo PDF optimizado, ahora listo para búsquedas y edición de texto.

Casos de uso

Digitalización de archivos históricos para facilitar la búsqueda documental en bibliotecas o empresas.
Extracción de datos desde facturas o contratos escaneados para su procesamiento en hojas de cálculo.
Conversión de libros o artículos escaneados en documentos digitales accesibles para lectores de pantalla.

Ejemplos

1. Digitalización de contratos escaneados

Asistente legal
Contexto
El despacho cuenta con cientos de contratos antiguos en PDF que son solo imágenes, lo que impide buscar cláusulas específicas.
Problema
Necesidad de buscar términos legales dentro de documentos escaneados sin tener que leer página por página.
Cómo usarlo
Cargar el PDF del contrato, configurar el idioma a 'spa' y procesar con 300 DPI para asegurar alta precisión.
Configuración de ejemplo
language: spa, dpi: 300, oem: 1, psm: 3
Resultado
El contrato ahora permite realizar búsquedas de texto completo y copiar fragmentos legales directamente al portapapeles.

2. Procesamiento rápido de facturas

Contable
Contexto
Se reciben diariamente múltiples facturas escaneadas que deben ser ingresadas en el sistema contable.
Problema
El proceso manual de transcripción es lento y propenso a errores humanos.
Cómo usarlo
Subir las facturas y utilizar una configuración de DPI más baja para acelerar el procesamiento sin perder legibilidad en los datos clave.
Configuración de ejemplo
language: spa, dpi: 200, oem: 1, psm: 6
Resultado
Generación rápida de PDFs con capa de texto, permitiendo copiar los montos y fechas directamente hacia el software contable.

Probar con muestras

pdf, text, file

Hubs relacionados

Preguntas frecuentes

¿Qué es una capa de texto OCR?

Es una capa invisible de texto que se añade sobre la imagen del PDF, permitiendo que el software reconozca y seleccione las palabras.

¿Qué idiomas soporta la herramienta?

Soporta múltiples idiomas mediante el motor Tesseract; puedes especificar el código de idioma (ej. 'eng' o 'spa') en la configuración.

¿Cuál es el DPI recomendado para mejores resultados?

Se recomienda un valor de 300 DPI para un equilibrio óptimo entre precisión de reconocimiento y tamaño del archivo.

¿Puedo procesar documentos con varias páginas?

Sí, la herramienta procesa el documento página por página y las combina automáticamente en un único archivo PDF final.

¿El archivo original se modifica?

No, la herramienta genera un nuevo archivo PDF con la capa de texto, manteniendo tu documento original intacto.

Documentación de la API

Punto final de la solicitud

POST /es/api/tools/pdf-ocr-text-layer

Parámetros de la solicitud

Nombre del parámetro Tipo Requerido Descripción
sourceFile file (Subida requerida) -
language text No -
dpi number No -
oem number No -
psm number No -

Los parámetros de tipo archivo necesitan ser subidos primero vía POST /upload/pdf-ocr-text-layer para obtener filePath, luego pasar filePath al campo de archivo correspondiente.

Formato de respuesta

{
  "filePath": "/public/processing/randomid.ext",
  "fileName": "output.ext",
  "contentType": "application/octet-stream",
  "size": 1024,
  "metadata": {
    "key": "value"
  },
  "error": "Error message (optional)",
  "message": "Notification message (optional)"
}
Archivo: Archivo

Documentación de MCP

Agregue este herramienta a su configuración de servidor MCP:

{
  "mcpServers": {
    "elysiatools-pdf-ocr-text-layer": {
      "name": "pdf-ocr-text-layer",
      "description": "Agrega capa de texto OCR a PDF escaneado para buscar/copiar contenido",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=pdf-ocr-text-layer",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

Puede encadenar múltiples herramientas, por ejemplo: `https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`, máximo 20 herramientas.

Soporte para enlaces de archivos URL o codificación Base64 para parámetros de archivo.

Si encuentra algún problema, por favor, póngase en contacto con nosotros en [email protected]