关键信息
- 分类
- Format Conversion
- 输入类型
- file, text, number, select, checkbox
- 输出类型
- file
- 样本覆盖
- 4
- 支持 API
- Yes
概览
XLSX Parquet 导出器是一款专为数据工程设计的转换工具,可将 Excel 表格文件自动转换为 Parquet 和 NDJSON 格式。它能智能推断字段类型,并提供灵活的输出选项,帮助您将电子表格数据无缝接入大数据平台、数据仓库或流处理管道。
适用场景
- •需要将 Excel 报表数据导入数据仓库(如 Snowflake, BigQuery)或数据湖进行分析时。
- •构建数据管道,需要将 Excel 源数据转换为 Parquet(用于批处理)或 NDJSON(用于流处理)格式时。
- •进行数据科学或机器学习项目前,需要将 Excel 数据清洗并转换为高效的列式存储格式时。
工作原理
- •上传您的 Excel 文件(.xlsx 或 .xls),并可选择指定要转换的工作表名称和表头所在的行号。
- •配置输出选项:选择生成 Parquet 文件、NDJSON 文件,或同时生成两者并打包为 ZIP。
- •根据需要启用辅助功能,如自动清洗字段名(移除特殊字符)和将空单元格转换为 null 值。
- •点击转换,工具将自动推断数据类型并生成指定格式的文件供您下载。
使用场景
用户案例
1. 销售业绩报表转换
- 背景原因
- 数据分析师小王每周需要将一份包含销售明细的 Excel 报表导入公司的数据仓库进行汇总分析。
- 解决问题
- 手动将 Excel 数据录入数据库效率低下且容易出错,需要一种自动化方式将表格数据转换为数据仓库友好的格式。
- 如何使用
- 上传 `weekly_sales.xlsx` 文件,保持默认的“表头行”为 1,在“输出模式”中选择“Parquet 格式”。
- 效果
- 生成一个包含所有销售记录的 Parquet 文件,其列名和数据类型已自动优化,可直接通过 SQL 查询或加载到 Tableau 中。
2. 为混合数据管道准备数据
数据工程师- 背景原因
- 数据工程师需要为同一个数据源同时准备批处理和流处理所需的数据格式。
- 解决问题
- 同一份 Excel 源数据需要同时用于每日批处理作业(使用 Parquet)和实时监控仪表板(使用 NDJSON),分别转换很麻烦。
- 如何使用
- 上传 `system_metrics.xlsx`,在“输出模式”中选择“Parquet + NDJSON(ZIP)”。
- 效果
- 下载一个 ZIP 压缩包,内含转换好的 metrics.parquet 文件和 metrics.ndjson 文件,可分别用于批处理和流处理管道。
3. 清洗并转换调查数据
市场研究员- 背景原因
- 市场研究员收集了大量 Excel 格式的问卷调查结果,准备进行统计分析。
- 解决问题
- Excel 表头包含空格和括号(如“Q1_年龄(岁)”),且部分单元格为空,直接用于 Python pandas 分析时需要额外清洗步骤。
- 如何使用
- 上传 `survey_results.xlsx`,勾选“清洗字段名”和“空值转 null”选项,输出模式选择“Parquet 格式”。
- 效果
- 得到一个 Parquet 文件,其中字段名已被清洗为“Q1_年龄_岁_”,空值被正确标记为 null,可直接用 pandas 的 `read_parquet()` 函数加载并开始分析。
用 Samples 测试
json, xml, xlsx相关专题
常见问题
支持哪些 Excel 文件格式?
支持现代的 .xlsx 格式和旧的 .xls 格式。
可以只导出 Parquet 或 NDJSON 吗?
可以。在“输出模式”中,您可以选择仅导出 Parquet、仅导出 NDJSON,或同时导出两者(打包为 ZIP)。
“清洗字段名”选项有什么作用?
启用后,工具会自动将 Excel 表头中的空格和特殊字符替换为下划线,确保生成的字段名符合数据库或编程语言的命名规范。
“空值转 null”选项有什么作用?
启用后,Excel 中的空单元格在输出文件中会被表示为 null 值,而不是空字符串,这更符合数据库和数据分析工具的语义。
对上传的 Excel 文件大小有限制吗?
有,单个文件大小不能超过 100 MB。