PDF-Seitenbereich-Extraktor

Extrahiert nur ausgewaehlte PDF-Seiten und exportiert sie als Markdown, JSON oder Text

Nach dem Upload eines PDFs geben Sie einen Seitenausdruck wie 1,3,5-7 an. Das Tool verarbeitet dann nur diese Seiten. Das ist besonders nuetzlich fuer lange Berichte, Handbuecher, Papers und Vertraege.

Beispielergebnisse

1 Beispiele

Nur die ersten zwei Berichtseiten extrahieren

Das reale Sample exportierte die Seiten 1-2 als wiederverwendbares Markdown.

pdf-page-range-extractor-example1.md Datei anzeigen
Eingabeparameter anzeigen
{ "pdfFile": "/public/samples/pdf/financial-report-example1.pdf", "exportFormat": "markdown", "pages": "1-2", "useStructTree": true, "keepLineBreaks": true, "includePageSeparators": true }

Click to upload file or drag and drop file here

Maximum file size: 10MB Supported formats: application/pdf

Wichtige Fakten

Kategorie
Entwicklung & Web
Eingabetypen
file, select, text, checkbox
Ausgabetyp
file
Sample-Abdeckung
4
API verfügbar
Yes

Überblick

Der PDF-Seitenbereich-Extraktor ermöglicht es Ihnen, gezielt bestimmte Seiten aus umfangreichen PDF-Dokumenten zu extrahieren und in strukturierte Formate wie Markdown, JSON oder reinen Text umzuwandeln. Durch die einfache Eingabe von Seitenzahlen oder Bereichen (z. B. 1,3,5-7) können Sie irrelevante Inhalte überspringen und nur die benötigten Kapitel, Anhänge oder Tabellen für die weitere Verarbeitung oder KI-Analyse exportieren.

Wann verwenden

  • Wenn Sie nur bestimmte Kapitel oder Anhänge aus einem langen Geschäftsbericht oder Handbuch benötigen.
  • Wenn Sie gezielte Textabschnitte aus Verträgen oder wissenschaftlichen Arbeiten für die KI-Verarbeitung aufbereiten möchten.
  • Wenn Sie große PDF-Dateien auf die wesentlichen Seiten reduzieren und in maschinenlesbare Formate wie JSON oder Markdown konvertieren müssen.

So funktioniert es

  • Laden Sie Ihre PDF-Datei über das Upload-Feld hoch.
  • Geben Sie die gewünschten Seiten oder Seitenbereiche in das Textfeld ein (z. B. 1,3,5-7).
  • Wählen Sie das gewünschte Exportformat (Markdown, JSON oder Text) und passen Sie Optionen wie Strukturbaum oder Seitentrenner an.
  • Starten Sie die Extraktion und laden Sie die generierte Datei mit den ausgewählten Inhalten herunter.

Anwendungsfälle

Extraktion von Finanzkennzahlen aus den ersten Seiten eines Jahresberichts für die Datenanalyse.
Herauslösen spezifischer Vertragsklauseln aus umfangreichen Rechtsdokumenten zur Überprüfung.
Aufbereitung einzelner Buchkapitel oder Paper-Abschnitte als Trainingsdaten für Large Language Models (LLMs).

Beispiele

1. Extraktion von Management-Zusammenfassungen

Finanzanalyst
Hintergrund
Ein Analyst muss regelmäßig die ersten Seiten von Quartalsberichten auswerten, ohne den gesamten 100-seitigen Bericht zu verarbeiten.
Problem
Das manuelle Kopieren von Text aus PDFs ist fehleranfällig und unstrukturiert.
Verwendung
Laden Sie den Finanzbericht hoch, setzen Sie die Seiten auf '1-2' und wählen Sie Markdown als Exportformat.
Beispielkonfiguration
Seiten: 1-2, Exportformat: markdown, Strukturbaum verwenden: true
Ergebnis
Die Seiten 1 und 2 werden als sauberes Markdown-Dokument exportiert, das direkt in Notiz-Apps oder Analyse-Tools eingefügt werden kann.

2. Gezielte Datenextraktion für KI-Pipelines

Data Engineer
Hintergrund
Für ein RAG-System (Retrieval-Augmented Generation) sollen nur die Methodik-Kapitel wissenschaftlicher Paper verarbeitet werden.
Problem
Die Verarbeitung ganzer PDFs verschwendet Tokens und führt zu irrelevanten KI-Antworten.
Verwendung
Laden Sie das Paper hoch, geben Sie den genauen Seitenbereich der Methodik (z. B. '4-6') ein und wählen Sie JSON als Exportformat.
Beispielkonfiguration
Seiten: 4-6, Exportformat: json, Seitentrenner einfügen: true
Ergebnis
Ein strukturiertes JSON-Dokument, das exakt den Text der Seiten 4 bis 6 enthält, ideal für den automatisierten Import in eine Datenbank.

Mit Samples testen

json, markdown, pdf

Verwandte Hubs

FAQ

Welche Formate werden für den Export unterstützt?

Sie können die extrahierten Seiten als Markdown, JSON oder reinen Text exportieren.

Wie gebe ich mehrere Seitenbereiche an?

Nutzen Sie Kommas für einzelne Seiten und Bindestriche für Bereiche, zum Beispiel 1,3,5-7.

Bleibt das Layout des Textes erhalten?

Ja, Sie können die Option 'Zeilenumbrüche beibehalten' aktivieren, um die ursprüngliche Textstruktur bestmöglich zu bewahren.

Was bewirkt die Option 'Strukturbaum verwenden'?

Diese Funktion nutzt die interne PDF-Struktur (Tags), um Überschriften, Absätze und Listen im Exportformat (wie Markdown) präziser abzubilden.

Kann ich erkennen, wo eine neue Seite beginnt?

Ja, wenn Sie 'Seitentrenner einfügen' aktivieren, wird im exportierten Dokument eine Markierung zwischen den einzelnen PDF-Seiten gesetzt.

API-Dokumentation

Request-Endpunkt

POST /de/api/tools/pdf-page-range-extractor

Request-Parameter

Parameter-Name Typ Erforderlich Beschreibung
pdfFile file (Upload erforderlich) Ja -
exportFormat select Nein -
pages text Ja -
useStructTree checkbox Nein -
keepLineBreaks checkbox Nein -
includePageSeparators checkbox Nein -

Dateitypparameter müssen erst über POST /upload/pdf-page-range-extractor hochgeladen werden, um filePath zu erhalten, dann filePath an das entsprechende Dateifeld übergeben.

Antwortformat

{
  "filePath": "/public/processing/randomid.ext",
  "fileName": "output.ext",
  "contentType": "application/octet-stream",
  "size": 1024,
  "metadata": {
    "key": "value"
  },
  "error": "Error message (optional)",
  "message": "Notification message (optional)"
}
Datei: Datei

MCP-Dokumentation

Fügen Sie dieses Tool zu Ihrer MCP-Server-Konfiguration hinzu:

{
  "mcpServers": {
    "elysiatools-pdf-page-range-extractor": {
      "name": "pdf-page-range-extractor",
      "description": "Extrahiert nur ausgewaehlte PDF-Seiten und exportiert sie als Markdown, JSON oder Text",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=pdf-page-range-extractor",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

Sie können mehrere Tools verketten, z.B.: `https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`, maximal 20 Tools.

Unterstützt URL-Dateilinks oder Base64-Codierung für Dateiparameter.

Wenn Sie auf Probleme stoßen, kontaktieren Sie uns bitte bei [email protected]