Kategorien

XLSX-Parquet-Exporter

Exportiert Tabellen nach Parquet/NDJSON fuer Datenpipelines

Leitet Typen automatisch ab und exportiert Parquet, NDJSON oder beides.

Beispielergebnisse

1 Beispiele

Parquet und NDJSON exportieren

Erzeugt beide Formate fuer Datenpipelines

xlsx-parquet-exporter-example1.zip Datei anzeigen
Eingabeparameter anzeigen
{ "excelFile": "/public/samples/xlsx/workbook-sales.xlsx", "outputMode": "both" }

Click to upload file or drag and drop file here

Maximum file size: 100MB Supported formats: application/vnd.openxmlformats-officedocument.spreadsheetml.sheet, application/vnd.ms-excel

Wichtige Fakten

Kategorie
Format Conversion
Eingabetypen
file, text, number, select, checkbox
Ausgabetyp
file
Sample-Abdeckung
4
API verfügbar
Yes

Überblick

Der XLSX-Parquet-Exporter konvertiert Excel-Tabellen in Parquet- und NDJSON-Formate für effiziente Datenpipelines und Data-Warehouse-Integration. Das Werkzeug leitet Datentypen automatisch ab und unterstützt flexible Exportoptionen.

Wann verwenden

  • Wenn Excel-Daten in ETL-Prozessen oder Datenpipelines für Big-Data-Systeme benötigt werden.
  • Beim Exportieren von Tabellenkalkulationen zur Aufnahme in Data-Warehouse-Lösungen wie Apache Hive oder Snowflake.
  • Zur Konvertierung von Excel-Dateien in spaltenorientierte Parquet- oder zeilenweise NDJSON-Formate für bessere Performance und Kompatibilität.

So funktioniert es

  • Laden Sie eine Excel-Datei (.xlsx oder .xls) über den Datei-Upload hoch.
  • Optional können Sie den Blattnamen, die Kopfzeile und das Ausgabeformat (Parquet, NDJSON oder beides) konfigurieren.
  • Das Werkzeug leitet die Datentypen automatisch ab und bereinigt Feldnamen, falls aktiviert.
  • Exportieren Sie die Daten als Parquet-Datei, NDJSON-Datei oder als ZIP-Paket mit beiden Formaten.

Anwendungsfälle

Integration von Excel-Verkaufsdaten in Apache Spark für datengetriebene Analysen.
Vorbereitung von Finanzberichten aus Excel für die Aufnahme in ein Data-Warehouse wie Google BigQuery.
Export von Excel-Listen zu NDJSON für die Verwendung in REST-APIs oder Stream-Verarbeitungssystemen.

Beispiele

1. Export für Big-Data-Pipeline

Datenanalyst
Hintergrund
Ein Datenanalyst muss monatliche Umsatzdaten aus einer Excel-Datei in eine Spark-Datenpipeline für Echtzeitanalysen integrieren.
Problem
Excel-Dateien sind nicht optimiert für die Verarbeitung in verteilten Systemen und verlangsamen die Pipeline.
Verwendung
Laden Sie die Datei 'umsatz_2024.xlsx' hoch, wählen Sie 'Parquet + NDJSON' als Ausgabeformat und lassen Sie die Datentypen automatisch ableiten.
Beispielkonfiguration
outputMode: both
Ergebnis
Erhält eine ZIP-Datei mit Parquet- und NDJSON-Dateien, die direkt in die Spark-Pipeline eingefügt und effizient verarbeitet werden können.

2. NDJSON-Export für Web-API

Hintergrund
Ein Entwickler exportiert Excel-Daten mit Kundeninformationen für eine REST-API, die NDJSON mit sauberen Feldnamen erwartet.
Problem
Feldnamen in der Excel-Tabelle enthalten Leerzeichen (z.B. 'Kunden Name'), was in der API zu Parsing-Fehlern führt.
Verwendung
Aktivieren Sie die Option 'Bereinigen Feld Names' und exportieren Sie als NDJSON-Format.
Ergebnis
NDJSON-Datei mit bereinigten Feldnamen (z.B. 'Kunden_Name'), die ohne weitere Anpassungen von der API verarbeitet wird.

Mit Samples testen

json, xml, xlsx

Verwandte Hubs

FAQ

Welche Excel-Formate werden unterstützt?

Es werden .xlsx- und .xls-Dateien unterstützt, mit einer maximalen Dateigröße von 100 MB.

Kann ich ein bestimmtes Arbeitsblatt exportieren?

Ja, geben Sie den Blattnamen an, andernfalls wird das erste Blatt verwendet.

Welche Ausgabeformate stehen zur Verfügung?

Sie können Parquet, NDJSON oder beide Formate in einem ZIP-Archiv exportieren.

Wie werden leere Zellen im Export behandelt?

Mit der Option 'Konvertieren Leer zu Null' werden leere Zellen in Null-Werte umgewandelt, standardmäßig aktiviert.

Werden Feldnamen automatisch bereinigt?

Ja, mit der Option 'Bereinigen Feld Names' werden Leerzeichen und Sonderzeichen in Feldnamen ersetzt, um Kompatibilität zu gewährleisten.

API-Dokumentation

Request-Endpunkt

POST /de/api/tools/xlsx-parquet-exporter

Request-Parameter

Parameter-Name Typ Erforderlich Beschreibung
excelFile file (Upload erforderlich) Ja -
sheetName text Nein -
headerRow number Nein -
outputMode select Nein -
useSanitizedFieldNames checkbox Nein -
nullForEmpty checkbox Nein -

Dateitypparameter müssen erst über POST /upload/xlsx-parquet-exporter hochgeladen werden, um filePath zu erhalten, dann filePath an das entsprechende Dateifeld übergeben.

Antwortformat

{
  "filePath": "/public/processing/randomid.ext",
  "fileName": "output.ext",
  "contentType": "application/octet-stream",
  "size": 1024,
  "metadata": {
    "key": "value"
  },
  "error": "Error message (optional)",
  "message": "Notification message (optional)"
}
Datei: Datei

MCP-Dokumentation

Fügen Sie dieses Tool zu Ihrer MCP-Server-Konfiguration hinzu:

{
  "mcpServers": {
    "elysiatools-xlsx-parquet-exporter": {
      "name": "xlsx-parquet-exporter",
      "description": "Exportiert Tabellen nach Parquet/NDJSON fuer Datenpipelines",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=xlsx-parquet-exporter",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

Sie können mehrere Tools verketten, z.B.: `https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`, maximal 20 Tools.

Unterstützt URL-Dateilinks oder Base64-Codierung für Dateiparameter.

Wenn Sie auf Probleme stoßen, kontaktieren Sie uns bitte bei [email protected]