Wichtige Fakten
- Kategorie
- Format Conversion
- Eingabetypen
- file, text, number, select, checkbox
- Ausgabetyp
- file
- Sample-Abdeckung
- 4
- API verfügbar
- Yes
Überblick
Der XLSX-Parquet-Exporter konvertiert Excel-Tabellen in Parquet- und NDJSON-Formate für effiziente Datenpipelines und Data-Warehouse-Integration. Das Werkzeug leitet Datentypen automatisch ab und unterstützt flexible Exportoptionen.
Wann verwenden
- •Wenn Excel-Daten in ETL-Prozessen oder Datenpipelines für Big-Data-Systeme benötigt werden.
- •Beim Exportieren von Tabellenkalkulationen zur Aufnahme in Data-Warehouse-Lösungen wie Apache Hive oder Snowflake.
- •Zur Konvertierung von Excel-Dateien in spaltenorientierte Parquet- oder zeilenweise NDJSON-Formate für bessere Performance und Kompatibilität.
So funktioniert es
- •Laden Sie eine Excel-Datei (.xlsx oder .xls) über den Datei-Upload hoch.
- •Optional können Sie den Blattnamen, die Kopfzeile und das Ausgabeformat (Parquet, NDJSON oder beides) konfigurieren.
- •Das Werkzeug leitet die Datentypen automatisch ab und bereinigt Feldnamen, falls aktiviert.
- •Exportieren Sie die Daten als Parquet-Datei, NDJSON-Datei oder als ZIP-Paket mit beiden Formaten.
Anwendungsfälle
Beispiele
1. Export für Big-Data-Pipeline
Datenanalyst- Hintergrund
- Ein Datenanalyst muss monatliche Umsatzdaten aus einer Excel-Datei in eine Spark-Datenpipeline für Echtzeitanalysen integrieren.
- Problem
- Excel-Dateien sind nicht optimiert für die Verarbeitung in verteilten Systemen und verlangsamen die Pipeline.
- Verwendung
- Laden Sie die Datei 'umsatz_2024.xlsx' hoch, wählen Sie 'Parquet + NDJSON' als Ausgabeformat und lassen Sie die Datentypen automatisch ableiten.
- Beispielkonfiguration
-
outputMode: both - Ergebnis
- Erhält eine ZIP-Datei mit Parquet- und NDJSON-Dateien, die direkt in die Spark-Pipeline eingefügt und effizient verarbeitet werden können.
2. NDJSON-Export für Web-API
- Hintergrund
- Ein Entwickler exportiert Excel-Daten mit Kundeninformationen für eine REST-API, die NDJSON mit sauberen Feldnamen erwartet.
- Problem
- Feldnamen in der Excel-Tabelle enthalten Leerzeichen (z.B. 'Kunden Name'), was in der API zu Parsing-Fehlern führt.
- Verwendung
- Aktivieren Sie die Option 'Bereinigen Feld Names' und exportieren Sie als NDJSON-Format.
- Ergebnis
- NDJSON-Datei mit bereinigten Feldnamen (z.B. 'Kunden_Name'), die ohne weitere Anpassungen von der API verarbeitet wird.
Mit Samples testen
json, xml, xlsxVerwandte Hubs
FAQ
Welche Excel-Formate werden unterstützt?
Es werden .xlsx- und .xls-Dateien unterstützt, mit einer maximalen Dateigröße von 100 MB.
Kann ich ein bestimmtes Arbeitsblatt exportieren?
Ja, geben Sie den Blattnamen an, andernfalls wird das erste Blatt verwendet.
Welche Ausgabeformate stehen zur Verfügung?
Sie können Parquet, NDJSON oder beide Formate in einem ZIP-Archiv exportieren.
Wie werden leere Zellen im Export behandelt?
Mit der Option 'Konvertieren Leer zu Null' werden leere Zellen in Null-Werte umgewandelt, standardmäßig aktiviert.
Werden Feldnamen automatisch bereinigt?
Ja, mit der Option 'Bereinigen Feld Names' werden Leerzeichen und Sonderzeichen in Feldnamen ersetzt, um Kompatibilität zu gewährleisten.