Catégories

Exportateur XLSX Parquet

Exporte des feuilles vers Parquet/NDJSON pour pipelines

Infere les types et exporte Parquet, NDJSON, ou les deux.

Exemples de résultats

1 Exemples

Exporter Parquet et NDJSON

Genere les deux formats pour pipelines

xlsx-parquet-exporter-example1.zip Voir fichier
Voir paramètres d'entrée
{ "excelFile": "/public/samples/xlsx/workbook-sales.xlsx", "outputMode": "both" }

Click to upload file or drag and drop file here

Maximum file size: 100MB Supported formats: application/vnd.openxmlformats-officedocument.spreadsheetml.sheet, application/vnd.ms-excel

Points clés

Catégorie
Format Conversion
Types d’entrée
file, text, number, select, checkbox
Type de sortie
file
Couverture des échantillons
4
API disponible
Yes

Vue d’ensemble

L'Exportateur XLSX Parquet est un outil spécialisé conçu pour convertir vos fichiers Excel en formats de données structurées, tels que Parquet et NDJSON, facilitant ainsi leur intégration directe dans vos pipelines de données et entrepôts analytiques.

Quand l’utiliser

  • Préparer des données Excel pour une ingestion dans un lac de données ou un entrepôt cloud.
  • Convertir des feuilles de calcul volumineuses en formats optimisés pour le traitement Big Data.
  • Standardiser des données tabulaires pour des flux de travail ETL automatisés.

Comment ça marche

  • Téléchargez votre fichier Excel et spécifiez la feuille cible ainsi que la ligne contenant vos en-têtes.
  • Choisissez le mode de sortie souhaité : Parquet, NDJSON, ou une archive ZIP contenant les deux formats.
  • Activez les options de nettoyage des noms de champs et la conversion des cellules vides en valeurs nulles pour garantir la compatibilité de votre schéma.
  • Lancez la conversion pour obtenir instantanément vos fichiers prêts à l'emploi.

Cas d’usage

Automatisation de l'ingestion de rapports financiers dans un pipeline de données.
Préparation de jeux de données pour des modèles de machine learning en format Parquet.
Migration de données métier depuis Excel vers des systèmes de stockage NoSQL ou Big Data.

Exemples

1. Conversion de rapports de ventes pour Data Warehouse

Ingénieur de données
Contexte
Une équipe commerciale fournit des rapports de ventes hebdomadaires au format XLSX, mais le système d'analyse nécessite du Parquet.
Problème
Convertir manuellement les fichiers Excel est inefficace et source d'erreurs de typage.
Comment l’utiliser
Charger le fichier 'workbook-sales.xlsx', sélectionner le mode 'Parquet' et activer le nettoyage des noms de champs.
Configuration d’exemple
{"outputMode": "parquet", "useSanitizedFieldNames": true}
Résultat
Un fichier Parquet propre et typé, prêt à être chargé dans l'entrepôt de données via le pipeline.

Tester avec des échantillons

json, xml, xlsx

Hubs associés

FAQ

Quels formats de sortie sont supportés ?

L'outil supporte le format Parquet, le format NDJSON, ou une archive ZIP combinant les deux.

L'outil détecte-t-il automatiquement les types de données ?

Oui, l'exportateur infère automatiquement les types de données à partir du contenu de vos colonnes Excel.

Puis-je traiter des fichiers Excel avec plusieurs feuilles ?

Oui, vous pouvez spécifier le nom de la feuille exacte que vous souhaitez convertir dans les paramètres.

Que deviennent les cellules vides dans le fichier de sortie ?

Par défaut, l'option 'Convertir Vide en Nul' transforme les cellules vides en valeurs nulles, ce qui est idéal pour les bases de données.

Y a-t-il une limite de taille pour les fichiers Excel ?

L'outil accepte des fichiers jusqu'à 100 Mo pour garantir une performance optimale lors de la conversion.

Documentation de l'API

Point de terminaison de la requête

POST /fr/api/tools/xlsx-parquet-exporter

Paramètres de la requête

Nom du paramètre Type Requis Description
excelFile file (Téléchargement requis) Oui -
sheetName text Non -
headerRow number Non -
outputMode select Non -
useSanitizedFieldNames checkbox Non -
nullForEmpty checkbox Non -

Les paramètres de type fichier doivent être téléchargés d'abord via POST /upload/xlsx-parquet-exporter pour obtenir filePath, puis filePath doit être passé au champ de fichier correspondant.

Format de réponse

{
  "filePath": "/public/processing/randomid.ext",
  "fileName": "output.ext",
  "contentType": "application/octet-stream",
  "size": 1024,
  "metadata": {
    "key": "value"
  },
  "error": "Error message (optional)",
  "message": "Notification message (optional)"
}
Fichier: Fichier

Documentation de MCP

Ajoutez cet outil à votre configuration de serveur MCP:

{
  "mcpServers": {
    "elysiatools-xlsx-parquet-exporter": {
      "name": "xlsx-parquet-exporter",
      "description": "Exporte des feuilles vers Parquet/NDJSON pour pipelines",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=xlsx-parquet-exporter",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

Vous pouvez chaîner plusieurs outils, par ex.: `https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`, max 20 outils.

Prend en charge les liens de fichiers URL ou la codification Base64 pour les paramètres de fichier.

Si vous rencontrez des problèmes, veuillez nous contacter à [email protected]