PDF-Bild- und Caption-Extraktor

Extrahiert PDF-Bilder, ordnet nahe Captions zu und erstellt einen durchsuchbaren HTML-Index

Nach dem Upload eines PDFs exportiert das Tool Bildressourcen, analysiert das strukturierte JSON und ordnet jeder Grafik anhand von Seite und Position die naechste Caption zu. Anschliessend wird ein HTML-Bericht erzeugt.

Beispielergebnisse

1 Beispiele

PDF-Bilder und zugehoerige Captions extrahieren

Das reale Sample erzeugte einen durchsuchbaren HTML-Bericht mit Bildern und Captions.

pdf-image-caption-extractor-example1.html Datei anzeigen
Eingabeparameter anzeigen
{ "pdfFile": "/public/samples/pdf/pdf-image-caption-extractor-source-example1.pdf", "imageFormat": "png", "pages": "", "useStructTree": true }

Click to upload file or drag and drop file here

Maximum file size: 10MB Supported formats: application/pdf

Wichtige Fakten

Kategorie
Bilder, Audio & Video
Eingabetypen
file, select, text, checkbox
Ausgabetyp
html
Sample-Abdeckung
4
API verfügbar
Yes

Überblick

Der PDF-Bild- und Caption-Extraktor ermöglicht das automatisierte Auslesen von Grafiken aus PDF-Dokumenten und ordnet diesen mithilfe von Strukturanalysen direkt die passenden Bildunterschriften zu. Das Tool generiert daraus einen übersichtlichen, durchsuchbaren HTML-Index, der den manuellen Aufwand bei der Katalogisierung von Abbildungen erheblich reduziert.

Wann verwenden

  • Wenn Sie Abbildungen aus wissenschaftlichen Arbeiten extrahieren und direkt mit ihrem Kontext speichern möchten.
  • Zur Erstellung einer digitalen Bilddatenbank aus umfangreichen PDF-Katalogen oder technischen Handbüchern.
  • Wenn Sie eine schnelle visuelle Übersicht aller enthaltenen Grafiken eines Dokuments in einem Browser-Format benötigen.

So funktioniert es

  • Laden Sie Ihr PDF-Dokument hoch und wählen Sie das gewünschte Bildformat sowie den zu verarbeitenden Seitenbereich aus.
  • Das Tool analysiert den Strukturbaum des PDFs, um räumliche Beziehungen zwischen Bildern und Textblöcken zu identifizieren.
  • Jede extrahierte Grafik wird automatisch mit der am nächsten gelegenen Bildunterschrift (Caption) verknüpft.
  • Ein interaktiver HTML-Bericht wird erstellt, der alle Bilder, deren Beschreibungen und Metadaten übersichtlich zusammenfasst.

Anwendungsfälle

Archivierung von Grafiken aus technischen Dokumentationen inklusive der zugehörigen Erläuterungen.
Erstellung von Bildverzeichnissen für akademische Publikationen oder Fachzeitschriften zur besseren Durchsuchbarkeit.
Extraktion von Design-Assets und deren Beschreibungen aus Marketing-Präsentationen für die Wiederverwendung in anderen Medien.

Beispiele

1. Katalogisierung technischer Diagramme

Dokumentationsmanager
Hintergrund
Ein Unternehmen besitzt hunderte PDF-Handbücher mit komplexen Schaltplänen und technischen Zeichnungen.
Problem
Die manuelle Zuordnung von Diagrammen zu ihren Beschreibungen für eine neue interne Datenbank ist extrem zeitaufwendig.
Verwendung
Das PDF-Handbuch hochladen, 'Strukturbaum verwenden' aktivieren und das Bildformat auf PNG setzen.
Ergebnis
Ein HTML-Index, der jedes Diagramm direkt neben seiner originalen Bildunterschrift anzeigt und so die schnelle Katalogisierung ermöglicht.

2. Extraktion von Abbildungen für Forschungsarbeiten

Wissenschaftlicher Mitarbeiter
Hintergrund
Für eine Literaturübersicht müssen Grafiken aus verschiedenen Studien gesammelt und korrekt zitiert werden.
Problem
Manuelle Screenshots sind oft unscharf und verlieren den direkten Bezug zur Quellenbeschreibung im Text.
Verwendung
Die PDF-Studie hochladen und den spezifischen Seitenbereich der Ergebnisse (z. B. '5-12') angeben.
Ergebnis
Ein sauberer Export aller Abbildungen in hoher Qualität mit den exakten Captions aus dem Originaldokument für die weitere Verwendung.

Mit Samples testen

html, pdf, image

Verwandte Hubs

FAQ

Welche Bildformate werden für den Export unterstützt?

Sie können die extrahierten Bilder wahlweise im PNG- oder JPEG-Format speichern.

Kann ich die Extraktion auf bestimmte Seiten einschränken?

Ja, Sie können einzelne Seiten oder Seitenbereiche wie zum Beispiel '1, 3, 5-10' im Feld 'Seiten' angeben.

Was bewirkt die Option 'Strukturbaum verwenden'?

Diese Option nutzt interne Metadaten des PDFs, um Bildunterschriften präziser und zuverlässiger den jeweiligen Grafiken zuzuordnen.

Werden auch Bilder ohne Bildunterschrift extrahiert?

Ja, das Tool extrahiert alle Bildressourcen; falls keine nahegelegene Caption gefunden wird, bleibt das Beschreibungsfeld leer.

Benötige ich eine OCR-Software für gescannte PDFs?

Die Caption-Zuordnung basiert auf Textelementen. Bei reinen Scans ohne Textebene können Bildunterschriften nicht erkannt werden.

API-Dokumentation

Request-Endpunkt

POST /de/api/tools/pdf-image-caption-extractor

Request-Parameter

Parameter-Name Typ Erforderlich Beschreibung
pdfFile file (Upload erforderlich) Ja -
imageFormat select Nein -
pages text Nein -
useStructTree checkbox Nein -

Dateitypparameter müssen erst über POST /upload/pdf-image-caption-extractor hochgeladen werden, um filePath zu erhalten, dann filePath an das entsprechende Dateifeld übergeben.

Antwortformat

{
  "result": "
Processed HTML content
", "error": "Error message (optional)", "message": "Notification message (optional)", "metadata": { "key": "value" } }
HTML: HTML

MCP-Dokumentation

Fügen Sie dieses Tool zu Ihrer MCP-Server-Konfiguration hinzu:

{
  "mcpServers": {
    "elysiatools-pdf-image-caption-extractor": {
      "name": "pdf-image-caption-extractor",
      "description": "Extrahiert PDF-Bilder, ordnet nahe Captions zu und erstellt einen durchsuchbaren HTML-Index",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=pdf-image-caption-extractor",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

Sie können mehrere Tools verketten, z.B.: `https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`, maximal 20 Tools.

Unterstützt URL-Dateilinks oder Base64-Codierung für Dateiparameter.

Wenn Sie auf Probleme stoßen, kontaktieren Sie uns bitte bei [email protected]