Catégories

PDF Text Extractor

Extract text content from PDF documents with support for page selection, formatting options, and multi-language processing

Click to upload file or drag and drop file here

Maximum file size: 100MB Supported formats: application/pdf

Supports PDF files up to 100MB

Specify pages to extract (1-5 for range, 3 for single page, 1,3,5 for multiple). Leave empty for all pages.

Keep original layout, spacing, and formatting as much as possible

Clean up excessive spaces and line breaks

Add line numbers to the extracted text

Points clés

Catégorie
Document Tools
Types d’entrée
file, text, select, checkbox
Type de sortie
text
Couverture des échantillons
4
API disponible
Yes

Vue d’ensemble

Notre extracteur de texte PDF vous permet de récupérer rapidement et précisément le contenu textuel de vos documents, avec des options flexibles pour le formatage et la sélection de pages.

Quand l’utiliser

  • Besoin d'extraire des données spécifiques d'un long rapport PDF.
  • Conversion de documents numérisés ou numériques en texte brut pour le traitement de données.
  • Récupération de contenu textuel pour une réutilisation dans d'autres applications ou formats.

Comment ça marche

  • Téléchargez votre fichier PDF (jusqu'à 100 Mo).
  • Définissez la plage de pages souhaitée ou laissez vide pour traiter tout le document.
  • Choisissez le format de sortie (texte brut, Markdown ou JSON) et ajustez les options de nettoyage.
  • Lancez l'extraction pour obtenir instantanément votre contenu textuel.

Cas d’usage

Extraction de données de factures pour intégration dans un logiciel de comptabilité.
Conversion de manuels techniques en format Markdown pour une documentation en ligne.
Récupération de texte à partir de rapports annuels pour analyse textuelle.

Exemples

1. Extraction de rapports financiers

Analyste financier
Contexte
Un analyste doit extraire les données textuelles d'un rapport annuel de 50 pages pour les intégrer dans un modèle d'analyse.
Problème
Le copier-coller manuel est inefficace et risque d'altérer la structure des données.
Comment l’utiliser
Téléverser le PDF, spécifier les pages clés, choisir le format JSON et activer la suppression des espaces inutiles.
Résultat
Le texte est extrait proprement dans une structure JSON prête à être importée dans un outil d'analyse de données.

2. Conversion de documents pour le Web

Rédacteur web
Contexte
Un rédacteur souhaite transformer un livre blanc PDF en article de blog au format Markdown.
Problème
Le formatage PDF original ne se traduit pas bien en HTML ou Markdown lors d'un simple copier-coller.
Comment l’utiliser
Téléverser le document, sélectionner le format de sortie 'Markdown' et conserver la mise en forme originale.
Résultat
Le contenu est converti en Markdown, préservant les titres et la structure, facilitant ainsi la publication sur le blog.

Tester avec des échantillons

pdf, video, text

Hubs associés

FAQ

Quelle est la taille maximale des fichiers PDF ?

Vous pouvez télécharger des fichiers PDF allant jusqu'à 100 Mo.

Puis-je extraire uniquement certaines pages ?

Oui, vous pouvez spécifier une plage de pages (ex: 1-5), une page unique (ex: 3) ou des pages spécifiques (ex: 1,3,5).

Quels formats de sortie sont disponibles ?

L'outil prend en charge le texte brut, le texte formaté, le Markdown et la structure JSON.

L'outil peut-il nettoyer les espaces inutiles ?

Oui, en activant l'option 'Supprimer les espaces supplémentaires', vous pouvez nettoyer les espaces et sauts de ligne excessifs.

Est-il possible de conserver la mise en forme originale ?

Oui, l'option 'Préserver la mise en forme originale' permet de maintenir la disposition et l'espacement du document source.

Documentation de l'API

Point de terminaison de la requête

POST /fr/api/tools/pdf-text-extractor

Paramètres de la requête

Nom du paramètre Type Requis Description
pdfFile file (Téléchargement requis) Oui Supports PDF files up to 100MB
pageRange text Non Specify pages to extract (1-5 for range, 3 for single page, 1,3,5 for multiple). Leave empty for all pages.
outputFormat select Non -
preserveFormatting checkbox Non Keep original layout, spacing, and formatting as much as possible
removeExtraWhitespace checkbox Non Clean up excessive spaces and line breaks
includeLineNumbers checkbox Non Add line numbers to the extracted text
encoding select Non -

Les paramètres de type fichier doivent être téléchargés d'abord via POST /upload/pdf-text-extractor pour obtenir filePath, puis filePath doit être passé au champ de fichier correspondant.

Format de réponse

{
  "result": "Processed text content",
  "error": "Error message (optional)",
  "message": "Notification message (optional)",
  "metadata": {
    "key": "value"
  }
}
Texte: Texte

Documentation de MCP

Ajoutez cet outil à votre configuration de serveur MCP:

{
  "mcpServers": {
    "elysiatools-pdf-text-extractor": {
      "name": "pdf-text-extractor",
      "description": "Extract text content from PDF documents with support for page selection, formatting options, and multi-language processing",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=pdf-text-extractor",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

Vous pouvez chaîner plusieurs outils, par ex.: `https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`, max 20 outils.

Prend en charge les liens de fichiers URL ou la codification Base64 pour les paramètres de fichier.

Si vous rencontrez des problèmes, veuillez nous contacter à [email protected]