Datos clave
- Categoría
- Seguridad y validación
- Tipos de entrada
- file, checkbox
- Tipo de salida
- html
- Cobertura de muestras
- 4
- API disponible
- Yes
Resumen
El Escáner de Prompt Injection para PDF es una herramienta de seguridad diseñada para proteger tus sistemas LLM y RAG. Al comparar extracciones de texto seguras con ejecuciones donde se desactivan filtros específicos, identifica de manera precisa intentos de inyección de prompts ocultos en capas, texto diminuto o contenido fuera de página. Sube tu archivo y obtén un reporte HTML detallado con los fragmentos sospechosos listos para revisión manual.
Cuándo usarlo
- •Antes de procesar documentos PDF de fuentes no confiables en sistemas de Inteligencia Artificial o RAG.
- •Al auditar archivos PDF en busca de texto oculto, fuentes diminutas o contenido malicioso fuera de los márgenes.
- •Para verificar la integridad de documentos legales o financieros antes de la extracción automatizada de datos.
Cómo funciona
- •Sube tu archivo PDF utilizando el campo principal de carga.
- •Selecciona los vectores de ataque que deseas escanear, como texto oculto, contenido fuera de página, texto diminuto o capas ocultas.
- •La herramienta ejecuta una extracción segura por defecto y la compara con extracciones sin filtros para aislar el texto sospechoso.
- •Revisa el reporte HTML generado, que resalta los fragmentos de texto adicionales encontrados en cada categoría de riesgo.
Casos de uso
Ejemplos
1. Auditoría de un reporte financiero externo
Ingeniero de Seguridad IA- Contexto
- La empresa recibe reportes financieros en PDF de múltiples proveedores y los procesa con un LLM para extraer métricas clave.
- Problema
- Existe el riesgo de que un proveedor incluya instrucciones ocultas para alterar el análisis del modelo de IA.
- Cómo usarlo
- Sube el PDF del reporte y activa las opciones de escanear texto oculto, contenido fuera de página y capas ocultas.
- Configuración de ejemplo
-
scanHiddenText: true, scanOffPageContent: true, scanHiddenLayers: true - Resultado
- El reporte HTML revela un párrafo en texto diminuto fuera de los márgenes que intentaba instruir al LLM a ignorar ciertas deudas.
2. Revisión de currículums en reclutamiento
Desarrollador de HR Tech- Contexto
- Un sistema de reclutamiento usa IA para resumir y puntuar cientos de CVs en formato PDF diariamente.
- Problema
- Algunos candidatos ocultan palabras clave en color blanco para engañar al algoritmo y obtener una puntuación más alta.
- Cómo usarlo
- Carga el CV sospechoso y asegúrate de marcar la casilla 'Escanear texto oculto' y 'Escanear texto diminuto'.
- Configuración de ejemplo
-
scanHiddenText: true, scanTinyText: true - Resultado
- La herramienta aísla y muestra una lista de palabras clave invisibles que el candidato había incrustado en el fondo del documento.
Probar con muestras
pdf, text, fileHubs relacionados
Preguntas frecuentes
¿Qué es un prompt injection en un PDF?
Es una técnica donde un atacante oculta instrucciones maliciosas en un documento (como texto blanco sobre fondo blanco) para manipular el comportamiento de un modelo de IA que lo procese.
¿Qué tipos de texto oculto puede detectar esta herramienta?
Puede detectar texto invisible, contenido ubicado fuera de los márgenes visibles de la página, fuentes de tamaño diminuto y texto en capas ocultas (OCG).
¿Cómo funciona la comparación de extracciones?
Primero extrae el texto con todos los filtros de seguridad activados. Luego, desactiva un filtro a la vez (ej. texto oculto) y compara los resultados. El texto nuevo se marca como sospechoso.
¿Puedo usar el árbol estructural del PDF para el escaneo?
Sí, puedes activar la opción 'Usar árbol estructural' para mejorar la precisión del análisis en documentos etiquetados.
¿Qué formato tiene el resultado del escaneo?
El resultado es un reporte en formato HTML que muestra insignias por categoría y vistas previas de los fragmentos de texto sospechosos encontrados.