Kategorien

Chinesischer Zeichen-Extraktor

Extrahiert alle chinesischen Zeichen aus dem Text und filtert Zeichensetzung, englische Buchstaben, Zahlen und nicht-chinesische Symbole heraus

Chinesische Zeichensetzung (,。!?、;:""''()【】《》) in die Extraktion einbeziehen

Wählen Sie, wie chinesische Inhalte extrahiert werden sollen

Nur eindeutige Zeichen/Wörter/Phrasen zurückgeben (Duplikate entfernen)

Wichtige Fakten

Kategorie
Text Processing
Eingabetypen
textarea, checkbox, select
Ausgabetyp
json
Sample-Abdeckung
4
API verfügbar
Yes

Überblick

Der Chinesische Zeichen-Extraktor ist ein Online-Tool, das gezielt chinesische Zeichen (Hanzi) aus beliebigem Text extrahiert. Es filtert automatisch Zeichensetzung, englische Buchstaben, Zahlen und andere nicht-chinesische Symbole heraus, um reine chinesische Inhalte zu isolieren und für weitere Analysen bereitzustellen.

Wann verwenden

  • Wenn Sie chinesische Zeichen aus gemischtsprachigen Dokumenten, wie wissenschaftlichen Artikeln oder Webseiten, isolieren müssen.
  • Zur Vorbereitung von Textdaten für linguistische Studien oder chinesische Sprachverarbeitung, wo nur reiner chinesischer Inhalt benötigt wird.
  • Beim Bereinigen von Benutzereingaben oder Datensätzen, die chinesische Zeichen von anderen Zeichen trennen sollen.

So funktioniert es

  • Geben oder fügen Sie den Text in das Eingabefeld ein, der chinesische Zeichen enthält.
  • Wählen Sie optional, ob chinesische Zeichensetzung einbezogen werden soll, und legen Sie den Extraktionsmodus fest (einzelne Zeichen, Wörter oder Phrasen).
  • Aktivieren Sie bei Bedarf 'Nur Eindeutige', um Duplikate zu entfernen, und starten Sie die Extraktion.
  • Das Tool gibt die extrahierten chinesischen Zeichen als JSON-Liste aus, die kopiert oder heruntergeladen werden kann.

Anwendungsfälle

Extrahieren von chinesischen Zeichen aus akademischen Papieren oder Büchern mit mehrsprachigem Inhalt für Forschungszwecke.
Bereinigen von Social-Media-Posts oder Kommentaren, um nur chinesische Textteile für Sentiment-Analysen zu behalten.
Vorbereiten von Trainingsdaten für chinesische Sprachmodelle, indem nicht-chinesische Zeichen entfernt werden.

Beispiele

1. Linguistische Textanalyse

Forscher
Hintergrund
Ein Linguist sammelt chinesische Textfragmente aus historischen Dokumenten, die lateinische Übersetzungen und Anmerkungen enthalten.
Problem
Die Dokumente sind mit englischen Buchstaben und Zahlen durchsetzt, was die Analyse der reinen chinesischen Zeichen erschwert.
Verwendung
Text in das Eingabefeld einfügen, Modus auf 'Zeichen' setzen und 'Chinesische Zeichensetzung Einbeziehen' deaktivieren, um nur Hanzi zu erhalten.
Ergebnis
Eine saubere Liste chinesischer Zeichen, die für statistische Häufigkeitsanalysen verwendet werden kann.

2. Datenbereinigung für NLP

Datenanalyst
Hintergrund
Ein Datenanalyst bereitet Web-Scraping-Daten für ein chinesisches Sprachmodell vor, die URLs, englische Wörter und Sonderzeichen enthalten.
Problem
Die Rohdaten sind unstrukturiert und enthalten viele nicht-chinesische Elemente, die das Training des Modells stören.
Verwendung
Den bereinigten Text einfügen, 'Nur Eindeutige' aktivieren und den Modus auf 'Wörter' stellen, um chinesische Begriffe zu extrahieren.
Beispielkonfiguration
{"mode": "words", "uniqueOnly": true}
Ergebnis
Eine deduplizierte Liste chinesischer Wörter, die direkt als Eingabe für NLP-Pipelines genutzt werden kann.

Mit Samples testen

image, video, text

Verwandte Hubs

FAQ

Welche Zeichen werden vom Tool erkannt?

Das Tool erkennt chinesische Zeichen im CJK-Unicode-Bereich, einschließlich vereinfachter und traditioneller Hanzi.

Kann ich ganze Wörter statt einzelner Zeichen extrahieren?

Ja, wählen Sie den Modus 'Wörter/Sequenzen' oder 'Phrasen', um zusammenhängende chinesische Ausdrücke zu extrahieren.

Was passiert mit Duplikaten in der Ausgabe?

Standardmäßig werden alle Vorkommen beibehalten. Aktivieren Sie 'Nur Eindeutige', um Duplikate automatisch zu entfernen.

Werden auch chinesische Satzzeichen extrahiert?

Nur wenn Sie die Option 'Chinesische Zeichensetzung Einbeziehen' aktivieren. Andernfalls werden Satzzeichen herausgefiltert.

Kann ich Dateien hochladen, um Text zu extrahieren?

Derzeit unterstützt das Tool nur direkte Texteingabe. Kopieren Sie den gewünschten Text in das Eingabefeld.

API-Dokumentation

Request-Endpunkt

POST /de/api/tools/chinese-character-extractor

Request-Parameter

Parameter-Name Typ Erforderlich Beschreibung
text textarea Ja -
includePunctuation checkbox Nein Chinesische Zeichensetzung (,。!?、;:""''()【】《》) in die Extraktion einbeziehen
mode select Nein Wählen Sie, wie chinesische Inhalte extrahiert werden sollen
uniqueOnly checkbox Nein Nur eindeutige Zeichen/Wörter/Phrasen zurückgeben (Duplikate entfernen)

Antwortformat

{
  "key": {...},
  "metadata": {
    "key": "value"
  },
  "error": "Error message (optional)",
  "message": "Notification message (optional)"
}
JSON-Daten: JSON-Daten

MCP-Dokumentation

Fügen Sie dieses Tool zu Ihrer MCP-Server-Konfiguration hinzu:

{
  "mcpServers": {
    "elysiatools-chinese-character-extractor": {
      "name": "chinese-character-extractor",
      "description": "Extrahiert alle chinesischen Zeichen aus dem Text und filtert Zeichensetzung, englische Buchstaben, Zahlen und nicht-chinesische Symbole heraus",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=chinese-character-extractor",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

Sie können mehrere Tools verketten, z.B.: `https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`, maximal 20 Tools.

Wenn Sie auf Probleme stoßen, kontaktieren Sie uns bitte bei [email protected]