Escaner de prompt injection para PDF

Compara extracciones seguras e inseguras para detectar texto oculto, contenido fuera de pagina y otros riesgos en PDF

Tras subir un PDF, la herramienta ejecuta primero OpenDataLoader con los filtros de seguridad por defecto y luego repite la extraccion desactivando categorias como hidden-text, off-page, tiny y hidden-ocg una por una. El texto adicional que solo aparece en esas ejecuciones se marca como sospechoso para revision manual.

Resultados de ejemplo

1 Ejemplos

Escanear un PDF antes de enviarlo a un LLM

La prueba real escaneo 4 categorias y no encontro texto sospechoso adicional.

Prompt-injection risk report scanning hidden-text, off-page, tiny, and hidden-ocg with no suspicious categories found in the sample PDF.
Ver parámetros de entrada
{ "pdfFile": "/public/samples/pdf/brand-guidelines-pdf-example1.pdf", "scanHiddenText": true, "scanOffPageContent": true, "scanTinyText": true, "scanHiddenLayers": true, "useStructTree": false, "sanitizeSensitiveData": false }

Click to upload file or drag and drop file here

Maximum file size: 10MB Supported formats: application/pdf

Datos clave

Categoría
Seguridad y validación
Tipos de entrada
file, checkbox
Tipo de salida
html
Cobertura de muestras
4
API disponible
Yes

Resumen

El Escáner de Prompt Injection para PDF es una herramienta de seguridad diseñada para proteger tus sistemas LLM y RAG. Al comparar extracciones de texto seguras con ejecuciones donde se desactivan filtros específicos, identifica de manera precisa intentos de inyección de prompts ocultos en capas, texto diminuto o contenido fuera de página. Sube tu archivo y obtén un reporte HTML detallado con los fragmentos sospechosos listos para revisión manual.

Cuándo usarlo

  • Antes de procesar documentos PDF de fuentes no confiables en sistemas de Inteligencia Artificial o RAG.
  • Al auditar archivos PDF en busca de texto oculto, fuentes diminutas o contenido malicioso fuera de los márgenes.
  • Para verificar la integridad de documentos legales o financieros antes de la extracción automatizada de datos.

Cómo funciona

  • Sube tu archivo PDF utilizando el campo principal de carga.
  • Selecciona los vectores de ataque que deseas escanear, como texto oculto, contenido fuera de página, texto diminuto o capas ocultas.
  • La herramienta ejecuta una extracción segura por defecto y la compara con extracciones sin filtros para aislar el texto sospechoso.
  • Revisa el reporte HTML generado, que resalta los fragmentos de texto adicionales encontrados en cada categoría de riesgo.

Casos de uso

Filtrado de currículums (CVs) en sistemas de reclutamiento automatizado con IA para evitar que candidatos manipulen el ranking con texto invisible.
Sanitización de reportes financieros de terceros antes de introducirlos en un pipeline de análisis de datos basado en LLMs.
Auditoría de seguridad en plataformas de procesamiento de documentos legales para prevenir la inyección de cláusulas ocultas.

Ejemplos

1. Auditoría de un reporte financiero externo

Ingeniero de Seguridad IA
Contexto
La empresa recibe reportes financieros en PDF de múltiples proveedores y los procesa con un LLM para extraer métricas clave.
Problema
Existe el riesgo de que un proveedor incluya instrucciones ocultas para alterar el análisis del modelo de IA.
Cómo usarlo
Sube el PDF del reporte y activa las opciones de escanear texto oculto, contenido fuera de página y capas ocultas.
Configuración de ejemplo
scanHiddenText: true, scanOffPageContent: true, scanHiddenLayers: true
Resultado
El reporte HTML revela un párrafo en texto diminuto fuera de los márgenes que intentaba instruir al LLM a ignorar ciertas deudas.

2. Revisión de currículums en reclutamiento

Desarrollador de HR Tech
Contexto
Un sistema de reclutamiento usa IA para resumir y puntuar cientos de CVs en formato PDF diariamente.
Problema
Algunos candidatos ocultan palabras clave en color blanco para engañar al algoritmo y obtener una puntuación más alta.
Cómo usarlo
Carga el CV sospechoso y asegúrate de marcar la casilla 'Escanear texto oculto' y 'Escanear texto diminuto'.
Configuración de ejemplo
scanHiddenText: true, scanTinyText: true
Resultado
La herramienta aísla y muestra una lista de palabras clave invisibles que el candidato había incrustado en el fondo del documento.

Probar con muestras

pdf, text, file

Hubs relacionados

Preguntas frecuentes

¿Qué es un prompt injection en un PDF?

Es una técnica donde un atacante oculta instrucciones maliciosas en un documento (como texto blanco sobre fondo blanco) para manipular el comportamiento de un modelo de IA que lo procese.

¿Qué tipos de texto oculto puede detectar esta herramienta?

Puede detectar texto invisible, contenido ubicado fuera de los márgenes visibles de la página, fuentes de tamaño diminuto y texto en capas ocultas (OCG).

¿Cómo funciona la comparación de extracciones?

Primero extrae el texto con todos los filtros de seguridad activados. Luego, desactiva un filtro a la vez (ej. texto oculto) y compara los resultados. El texto nuevo se marca como sospechoso.

¿Puedo usar el árbol estructural del PDF para el escaneo?

Sí, puedes activar la opción 'Usar árbol estructural' para mejorar la precisión del análisis en documentos etiquetados.

¿Qué formato tiene el resultado del escaneo?

El resultado es un reporte en formato HTML que muestra insignias por categoría y vistas previas de los fragmentos de texto sospechosos encontrados.

Documentación de la API

Punto final de la solicitud

POST /es/api/tools/pdf-prompt-injection-scanner

Parámetros de la solicitud

Nombre del parámetro Tipo Requerido Descripción
pdfFile file (Subida requerida) -
scanHiddenText checkbox No -
scanOffPageContent checkbox No -
scanTinyText checkbox No -
scanHiddenLayers checkbox No -
useStructTree checkbox No -
sanitizeSensitiveData checkbox No -

Los parámetros de tipo archivo necesitan ser subidos primero vía POST /upload/pdf-prompt-injection-scanner para obtener filePath, luego pasar filePath al campo de archivo correspondiente.

Formato de respuesta

{
  "result": "
Processed HTML content
", "error": "Error message (optional)", "message": "Notification message (optional)", "metadata": { "key": "value" } }
HTML: HTML

Documentación de MCP

Agregue este herramienta a su configuración de servidor MCP:

{
  "mcpServers": {
    "elysiatools-pdf-prompt-injection-scanner": {
      "name": "pdf-prompt-injection-scanner",
      "description": "Compara extracciones seguras e inseguras para detectar texto oculto, contenido fuera de pagina y otros riesgos en PDF",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=pdf-prompt-injection-scanner",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

Puede encadenar múltiples herramientas, por ejemplo: `https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`, máximo 20 herramientas.

Soporte para enlaces de archivos URL o codificación Base64 para parámetros de archivo.

Si encuentra algún problema, por favor, póngase en contacto con nosotros en [email protected]