Datos clave
- Categoría
- Format Conversion
- Tipos de entrada
- file, text, number, select, checkbox
- Tipo de salida
- file
- Cobertura de muestras
- 4
- API disponible
- Yes
Resumen
El Exportador XLSX Parquet es una herramienta eficiente diseñada para transformar archivos de Excel en formatos optimizados para el análisis de datos, como Parquet y NDJSON, facilitando su integración directa en pipelines de datos y almacenes de información.
Cuándo usarlo
- •Cuando necesitas preparar datos de Excel para cargarlos en sistemas de Big Data o almacenes de datos.
- •Al requerir una conversión rápida de archivos XLSX a formatos estructurados que soporten esquemas de tipos.
- •Cuando buscas automatizar la ingesta de datos desde hojas de cálculo hacia flujos de trabajo de procesamiento de datos.
Cómo funciona
- •Sube tu archivo Excel y especifica el nombre de la hoja y la fila que contiene los encabezados.
- •Selecciona el modo de salida deseado: Parquet, NDJSON o ambos formatos comprimidos en un archivo ZIP.
- •Configura opciones adicionales como la limpieza de nombres de campos o la conversión de celdas vacías a valores nulos.
- •Ejecuta la conversión para obtener tus archivos listos para ser utilizados en tus pipelines.
Casos de uso
Ejemplos
1. Preparación de datos para Data Warehouse
Ingeniero de Datos- Contexto
- El equipo de ventas entrega reportes mensuales en formato XLSX que deben ser cargados en un almacén de datos basado en Parquet.
- Problema
- El formato Excel no es compatible con el pipeline de ingesta automatizado del almacén.
- Cómo usarlo
- Cargar el archivo, seleccionar 'Formato Parquet' y habilitar la limpieza de nombres de campos.
- Configuración de ejemplo
-
outputMode: parquet, useSanitizedFieldNames: true - Resultado
- Se obtiene un archivo Parquet con esquemas limpios, listo para ser procesado por el pipeline de datos.
2. Conversión para servicios de streaming
Desarrollador Backend- Contexto
- Se necesita importar una lista de productos desde un Excel hacia una base de datos que consume archivos NDJSON.
- Problema
- Convertir manualmente miles de filas de Excel a formato NDJSON es propenso a errores de formato.
- Cómo usarlo
- Subir el archivo, seleccionar 'Formato NDJSON' y asegurar que los campos vacíos se marquen como nulos.
- Configuración de ejemplo
-
outputMode: ndjson, nullForEmpty: true - Resultado
- Un archivo NDJSON estructurado y validado, listo para la importación directa en la base de datos.
Probar con muestras
json, xml, xlsxHubs relacionados
Preguntas frecuentes
¿Qué formatos de salida admite la herramienta?
La herramienta permite exportar a Parquet, NDJSON o ambos simultáneamente en un paquete ZIP.
¿Es posible definir qué fila contiene los encabezados?
Sí, puedes especificar el número de fila que contiene los encabezados mediante la opción 'Encabezado Fila'.
¿Cómo maneja la herramienta los valores vacíos?
Puedes activar la opción 'Convertir Vacio a Nulo' para que las celdas sin contenido se interpreten como valores nulos en el archivo resultante.
¿Qué sucede con los nombres de las columnas?
La opción 'Sanear Campo Names' ajusta automáticamente los nombres de las columnas para asegurar la compatibilidad con sistemas de datos.
¿Existe un límite en el tamaño del archivo?
La herramienta admite archivos de hasta 100 MB para garantizar un procesamiento fluido.