Scanner de prompt injection PDF

Compare des extractions securisees et non securisees pour detecter le texte cache, le contenu hors page et dautres risques PDF

Apres le chargement dun PDF, loutil execute dabord OpenDataLoader avec les filtres de securite par defaut, puis relance lextraction en desactivant hidden-text, off-page, tiny et hidden-ocg un par un. Le texte supplementaire qui napparait que dans ces executions est signale comme suspect pour relecture manuelle.

Exemples de résultats

1 Exemples

Scanner un PDF avant un flux LLM

Le test reel a analyse 4 categories et na trouve aucun texte suspect supplementaire.

Prompt-injection risk report scanning hidden-text, off-page, tiny, and hidden-ocg with no suspicious categories found in the sample PDF.
Voir paramètres d'entrée
{ "pdfFile": "/public/samples/pdf/brand-guidelines-pdf-example1.pdf", "scanHiddenText": true, "scanOffPageContent": true, "scanTinyText": true, "scanHiddenLayers": true, "useStructTree": false, "sanitizeSensitiveData": false }

Click to upload file or drag and drop file here

Maximum file size: 10MB Supported formats: application/pdf

Points clés

Catégorie
Sécurité et validation
Types d’entrée
file, checkbox
Type de sortie
html
Couverture des échantillons
4
API disponible
Yes

Vue d’ensemble

Le Scanner de prompt injection PDF est un outil de sécurité conçu pour analyser les documents avant leur traitement par un LLM. En comparant une extraction de texte standard avec des extractions désactivant les filtres de sécurité, il détecte automatiquement les textes cachés, les contenus hors page, les polices minuscules et les calques masqués qui pourraient manipuler vos modèles d'intelligence artificielle.

Quand l’utiliser

  • Avant d'intégrer des documents PDF provenant de sources externes dans un système RAG (Retrieval-Augmented Generation).
  • Lors de l'audit de sécurité de fichiers PDF suspects pour identifier des tentatives de manipulation de LLM.
  • Pour vérifier l'intégrité des données extraites en s'assurant qu'aucun texte invisible n'a été inséré intentionnellement.

Comment ça marche

  • Importez votre fichier PDF dans l'outil et sélectionnez les types de risques à scanner (texte caché, contenu hors page, texte minuscule, calques cachés).
  • L'outil effectue une première extraction sécurisée avec les filtres par défaut d'OpenDataLoader.
  • Il relance ensuite l'extraction en désactivant un par un les filtres sélectionnés pour isoler les éléments invisibles.
  • Un rapport HTML met en évidence les extraits de texte supplémentaires détectés, vous permettant de les examiner manuellement.

Cas d’usage

Sécurisation des pipelines d'ingestion de données pour les applications basées sur l'IA générative.
Analyse de CV ou de documents de candidature pour détecter les mots-clés invisibles destinés à tromper les systèmes de tri automatisés (ATS).
Inspection de contrats ou de rapports financiers tiers pour s'assurer qu'aucune clause cachée n'est transmise aux outils d'analyse.

Exemples

1. Sécurisation d'un pipeline RAG financier

Ingénieur Sécurité IA
Contexte
L'entreprise utilise un LLM pour résumer des rapports financiers fournis par des partenaires externes.
Problème
S'assurer qu'aucun rapport ne contient des instructions cachées visant à fausser le résumé généré par l'IA.
Comment l’utiliser
Uploadez le rapport financier, cochez toutes les options de scan (texte caché, hors page, minuscule, calques) et lancez l'analyse.
Configuration d’exemple
{
  "scanHiddenText": true,
  "scanOffPageContent": true,
  "scanTinyText": true,
  "scanHiddenLayers": true
}
Résultat
Le rapport HTML signale un bloc de texte blanc sur fond blanc contenant des instructions de manipulation, permettant de bloquer le fichier avant son ingestion.

2. Détection de triche dans les CV

Responsable RH
Contexte
L'entreprise reçoit des centaines de CV au format PDF et utilise un outil d'analyse sémantique pour présélectionner les candidats.
Problème
Certains candidats insèrent des listes de compétences en police minuscule pour tromper l'algorithme de tri.
Comment l’utiliser
Chargez le CV suspect en activant spécifiquement l'option Scanner le texte minuscule.
Configuration d’exemple
{
  "scanTinyText": true,
  "scanHiddenText": false,
  "scanOffPageContent": false,
  "scanHiddenLayers": false
}
Résultat
L'outil isole et affiche la liste des mots-clés minuscules cachés dans le document, confirmant la tentative de manipulation.

Tester avec des échantillons

pdf, text, file

Hubs associés

FAQ

Qu'est-ce qu'une prompt injection dans un PDF ?

C'est une technique où un attaquant cache des instructions malveillantes dans un document (texte blanc sur fond blanc, texte hors page) pour manipuler le comportement du LLM qui l'analyse.

Quels types de contenus cachés cet outil peut-il détecter ?

L'outil détecte le texte caché par couleur, le contenu placé en dehors des limites de la page, le texte de taille minuscule et le texte situé dans des calques masqués (OCG).

L'outil supprime-t-il les menaces automatiquement ?

Non, l'outil agit comme un scanner de détection. Il génère un rapport mettant en évidence les textes suspects pour que vous puissiez les examiner et décider de rejeter ou nettoyer le fichier.

À quoi sert l'option Utiliser l'arbre de structure ?

Cette option permet d'utiliser la structure logique interne du PDF (si elle existe) pour améliorer la précision de l'extraction et l'analyse du contexte des éléments cachés.

Puis-je désactiver la recherche de certains risques ?

Oui, vous pouvez décocher des options spécifiques comme Scanner le texte minuscule ou Scanner le contenu hors page selon vos besoins d'analyse.

Documentation de l'API

Point de terminaison de la requête

POST /fr/api/tools/pdf-prompt-injection-scanner

Paramètres de la requête

Nom du paramètre Type Requis Description
pdfFile file (Téléchargement requis) Oui -
scanHiddenText checkbox Non -
scanOffPageContent checkbox Non -
scanTinyText checkbox Non -
scanHiddenLayers checkbox Non -
useStructTree checkbox Non -
sanitizeSensitiveData checkbox Non -

Les paramètres de type fichier doivent être téléchargés d'abord via POST /upload/pdf-prompt-injection-scanner pour obtenir filePath, puis filePath doit être passé au champ de fichier correspondant.

Format de réponse

{
  "result": "
Processed HTML content
", "error": "Error message (optional)", "message": "Notification message (optional)", "metadata": { "key": "value" } }
HTML: HTML

Documentation de MCP

Ajoutez cet outil à votre configuration de serveur MCP:

{
  "mcpServers": {
    "elysiatools-pdf-prompt-injection-scanner": {
      "name": "pdf-prompt-injection-scanner",
      "description": "Compare des extractions securisees et non securisees pour detecter le texte cache, le contenu hors page et dautres risques PDF",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=pdf-prompt-injection-scanner",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

Vous pouvez chaîner plusieurs outils, par ex.: `https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`, max 20 outils.

Prend en charge les liens de fichiers URL ou la codification Base64 pour les paramètres de fichier.

Si vous rencontrez des problèmes, veuillez nous contacter à [email protected]