Datos clave
- Categoría
- Documentos y PDF
- Tipos de entrada
- file, select, number, text
- Tipo de salida
- file
- Cobertura de muestras
- 4
- API disponible
- Yes
Resumen
Limpia y optimiza tus documentos PDF escaneados eliminando el ruido visual, el grano aleatorio y las manchas de fondo. Esta herramienta procesa de forma inteligente las páginas de imagen aplicando filtros avanzados como la mediana y la binarización de Otsu, mientras conserva intactas las páginas de texto vectorial para mantener su capacidad de búsqueda.
Cuándo usarlo
- •Cuando tienes documentos PDF escaneados con ruido de fondo, motas oscuras o grano que dificultan la lectura.
- •Al preparar archivos PDF digitalizados para sistemas de reconocimiento óptico de caracteres (OCR) que requieren texto limpio y contrastado.
- •Cuando necesitas limpiar las imágenes de un PDF mixto sin perder el texto vectorial ni la capacidad de búsqueda en las páginas digitales nativas.
Cómo funciona
- •El usuario sube el archivo PDF y selecciona el modo de reducción de ruido (Automático, Mediana o Binarizar) junto con el rango de páginas a procesar.
- •La herramienta analiza cada página: las páginas de texto vectorial se conservan intactas, mientras que las páginas de imagen se rasterizan para aplicar los algoritmos de limpieza.
- •Se aplican filtros de mediana para eliminar el ruido de sal y pimienta o el umbral adaptativo de Otsu para convertir fondos grises en blanco puro.
- •Se reconstruye el documento PDF combinando las páginas limpiadas y las páginas vectoriales originales en un único archivo optimizado.
Casos de uso
Ejemplos
1. Limpieza automática de contratos escaneados
Asistente legal- Contexto
- Un asistente legal recibe contratos escaneados con mucho ruido de fondo y pequeñas motas negras que dificultan la lectura de las cláusulas.
- Problema
- El ruido visual en las páginas escaneadas da un aspecto poco profesional y reduce la legibilidad del documento.
- Cómo usarlo
- Sube el PDF del contrato, selecciona el modo 'Automático (mediana + despeckle)' con una intensidad de 2 pasadas y procesa el archivo.
- Configuración de ejemplo
-
mode: 'auto', strength: 2, rasterizeText: 'false' - Resultado
- Se genera un PDF limpio donde las motas de polvo han desaparecido y el fondo es uniforme, manteniendo el texto legible.
2. Binarización de documentos históricos tenues
Archivista digital- Contexto
- Un archivista está digitalizando manuscritos y documentos antiguos cuyas páginas tienen un fondo amarillento y texto descolorido.
- Problema
- El bajo contraste entre el papel envejecido y la tinta dificulta la lectura y el almacenamiento eficiente.
- Cómo usarlo
- Sube el archivo PDF, selecciona el modo 'Binarizar (Otsu)' para las páginas de la 1 a la 5 y ejecuta la herramienta.
- Configuración de ejemplo
-
mode: 'binarize', pageRange: '1-5' - Resultado
- Las páginas seleccionadas se convierten a blanco y negro puro, eliminando el fondo oscuro y haciendo que el texto sea completamente nítido.
Probar con muestras
pdf, image, videoHubs relacionados
Preguntas frecuentes
¿El proceso elimina el texto seleccionable de mi PDF?
No por defecto. Las páginas con texto vectorial se conservan intactas para mantener la búsqueda, a menos que actives la opción de rasterizar texto.
¿Qué hace el modo de binarización Otsu?
Convierte los fondos tenues o grises en blanco puro y el texto en negro sólido, mejorando drásticamente el contraste y la legibilidad.
¿Cuándo debo activar la opción 'Rasterizar páginas de texto'?
Actívala únicamente si tu PDF tiene una capa de texto OCR invisible pero la imagen de fondo sigue teniendo ruido visual que deseas limpiar.
¿Qué rango de páginas puedo procesar?
Puedes especificar páginas individuales o rangos separados por comas (por ejemplo, '1-3,5'), o dejarlo en blanco para procesar todo el documento.
¿Cuántas pasadas del filtro de mediana se recomiendan?
Se recomiendan 2 pasadas para un equilibrio óptimo entre la eliminación de ruido de sal y pimienta y la nitidez de los bordes.