Gescanntes PDF per OCR zu Markdown

Wandelt gescannte oder bildbasierte PDFs in Markdown um, bevorzugt Hybrid-OCR und faellt bei Bedarf sauber zurueck

Nach dem Upload eines gescannten PDFs versucht das Tool zunaechst OpenDataLoader Hybrid-OCR und exportiert das Ergebnis als Markdown. Ist kein Hybrid-Backend verfuegbar, erfolgt automatisch ein Fallback zur Standardextraktion mit klarer Kennzeichnung in den Metadata.

Beispielergebnisse

1 Beispiele

Ein OCR-PDF in Markdown umwandeln

Das reale Sample liefert wiederverwendbares Markdown und nutzt den lokalen Pfad fuer eine stabile Reproduzierbarkeit im Repository.

scanned-pdf-ocr-to-markdown-example1.md Datei anzeigen
Eingabeparameter anzeigen
{ "pdfFile": "/public/samples/pdf/pdf-ocr-text-layer-example1.pdf", "pages": "", "keepLineBreaks": true, "includePageSeparators": true, "hybridBackendUrl": "", "preferHybridOcr": false }

Click to upload file or drag and drop file here

Maximum file size: 10MB Supported formats: application/pdf

Wichtige Fakten

Kategorie
KI & Generatoren
Eingabetypen
file, text, checkbox
Ausgabetyp
file
Sample-Abdeckung
4
API verfügbar
Yes

Überblick

Wandeln Sie gescannte oder bildbasierte PDF-Dokumente mithilfe von Hybrid-OCR-Technologie präzise in strukturierte Markdown-Dateien um. Das Tool nutzt OpenDataLoader für eine hochwertige Texterkennung und bietet einen automatischen Fallback zur Standardextraktion, falls das Hybrid-Backend nicht verfügbar ist, um stets nutzbare Ergebnisse zu liefern.

Wann verwenden

  • Wenn Sie Text aus gescannten Dokumenten oder Fotos extrahieren müssen, die keine durchsuchbare Textebene besitzen.
  • Zur Digitalisierung von Papierunterlagen in ein strukturiertes Format für Dokumentationssysteme oder Wissensdatenbanken.
  • Wenn eine präzise Texterkennung mit Hybrid-OCR-Unterstützung für komplexe Layouts erforderlich ist.

So funktioniert es

  • Laden Sie die gewünschte PDF-Datei hoch und legen Sie optional den zu verarbeitenden Seitenbereich fest.
  • Das Tool aktiviert die Hybrid-OCR-Engine, um Bildinhalte in Text umzuwandeln, sofern ein entsprechendes Backend konfiguriert ist.
  • Die extrahierten Daten werden unter Berücksichtigung von Zeilenumbrüchen und Seitentrennern in Markdown formatiert.
  • Sie erhalten eine fertige Markdown-Datei zum Download, inklusive Metadaten zur verwendeten Extraktionsmethode.

Anwendungsfälle

Digitalisierung von alten Archiv-Dokumenten für die Einpflege in ein Firmen-Wiki oder Notion.
Umwandlung von fotografierten Buchseiten in bearbeitbaren Text für wissenschaftliche Arbeiten.
Automatisierte Texterkennung von Rechnungen oder Verträgen, die nur als Bild-PDF vorliegen.

Beispiele

1. Digitalisierung historischer Protokolle

Archivar
Hintergrund
Ein Archiv besitzt hunderte gescannte Sitzungsprotokolle als reine Bild-PDFs ohne Textebene.
Problem
Der Text ist nicht durchsuchbar und kann nicht für digitale Berichte oder Datenbanken kopiert werden.
Verwendung
PDF-Datei hochladen, die Option 'Hybrid-OCR bevorzugen' aktivieren und die Konvertierung starten.
Ergebnis
Ein durchsuchbares Markdown-Dokument, das die Inhalte der Scans textbasiert wiedergibt und einfach archiviert werden kann.

2. Extraktion von Skript-Inhalten

Student
Hintergrund
Ein Vorlesungsskript liegt nur als Scan vor, und wichtige Passagen sollen in eine Lern-App übertragen werden.
Problem
Manuelles Abtippen der gescannten Seiten ist zu zeitaufwendig und fehleranfällig.
Verwendung
PDF-Datei auswählen, Seitenbereich '10-20' angeben und 'Zeilenumbrüche beibehalten' wählen.
Ergebnis
Die relevanten Seiten werden als Markdown-Text ausgegeben, bereit für die direkte Weiterverarbeitung in Tools wie Obsidian.

Mit Samples testen

markdown, pdf, image

Verwandte Hubs

FAQ

Was passiert, wenn das Hybrid-OCR-Backend nicht erreichbar ist?

Das Tool führt automatisch einen Fallback zur Standardextraktion durch und vermerkt dies in den Metadaten der Ergebnisdatei.

Kann ich nur bestimmte Seiten eines PDFs konvertieren?

Ja, über das Feld 'Seiten' können Sie einzelne Nummern oder Bereiche wie '1,3,5-7' für die Verarbeitung angeben.

Bleibt das Layout des PDFs im Markdown erhalten?

Markdown ist ein Textformat; die Struktur wird durch Zeilenumbrüche nachempfunden, aber komplexe grafische Layouts werden vereinfacht.

Unterstützt das Tool passwortgeschützte PDFs?

Nein, die PDF-Datei muss ohne Passwortschutz vorliegen, damit die OCR-Engine die Inhalte lesen kann.

Wofür wird die Hybrid-Backend-URL benötigt?

Diese optionale URL verbindet das Tool mit einem spezifischen OpenDataLoader-Server für verbesserte OCR-Ergebnisse.

API-Dokumentation

Request-Endpunkt

POST /de/api/tools/scanned-pdf-ocr-to-markdown

Request-Parameter

Parameter-Name Typ Erforderlich Beschreibung
pdfFile file (Upload erforderlich) Ja -
pages text Nein -
keepLineBreaks checkbox Nein -
includePageSeparators checkbox Nein -
hybridBackendUrl text Nein -
preferHybridOcr checkbox Nein -

Dateitypparameter müssen erst über POST /upload/scanned-pdf-ocr-to-markdown hochgeladen werden, um filePath zu erhalten, dann filePath an das entsprechende Dateifeld übergeben.

Antwortformat

{
  "filePath": "/public/processing/randomid.ext",
  "fileName": "output.ext",
  "contentType": "application/octet-stream",
  "size": 1024,
  "metadata": {
    "key": "value"
  },
  "error": "Error message (optional)",
  "message": "Notification message (optional)"
}
Datei: Datei

MCP-Dokumentation

Fügen Sie dieses Tool zu Ihrer MCP-Server-Konfiguration hinzu:

{
  "mcpServers": {
    "elysiatools-scanned-pdf-ocr-to-markdown": {
      "name": "scanned-pdf-ocr-to-markdown",
      "description": "Wandelt gescannte oder bildbasierte PDFs in Markdown um, bevorzugt Hybrid-OCR und faellt bei Bedarf sauber zurueck",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=scanned-pdf-ocr-to-markdown",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

Sie können mehrere Tools verketten, z.B.: `https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`, maximal 20 Tools.

Unterstützt URL-Dateilinks oder Base64-Codierung für Dateiparameter.

Wenn Sie auf Probleme stoßen, kontaktieren Sie uns bitte bei [email protected]