分类

XLSX Parquet 导出器

将表格导出为 Parquet/NDJSON,用于大数据与数据仓库管道

自动推断字段类型并导出 Parquet、NDJSON 或二者打包。

示例结果

1 个示例

导出 Parquet 与 NDJSON

同时生成 Parquet 和 NDJSON 用于数仓与流式管道

xlsx-parquet-exporter-example1.zip 查看文件
查看输入参数
{ "excelFile": "/public/samples/xlsx/workbook-sales.xlsx", "outputMode": "both" }

Click to upload file or drag and drop file here

Maximum file size: 100MB Supported formats: application/vnd.openxmlformats-officedocument.spreadsheetml.sheet, application/vnd.ms-excel

关键信息

分类
Format Conversion
输入类型
file, text, number, select, checkbox
输出类型
file
样本覆盖
4
支持 API
Yes

概览

XLSX Parquet 导出器是一款专为数据工程设计的转换工具,可将 Excel 表格文件自动转换为 Parquet 和 NDJSON 格式。它能智能推断字段类型,并提供灵活的输出选项,帮助您将电子表格数据无缝接入大数据平台、数据仓库或流处理管道。

适用场景

  • 需要将 Excel 报表数据导入数据仓库(如 Snowflake, BigQuery)或数据湖进行分析时。
  • 构建数据管道,需要将 Excel 源数据转换为 Parquet(用于批处理)或 NDJSON(用于流处理)格式时。
  • 进行数据科学或机器学习项目前,需要将 Excel 数据清洗并转换为高效的列式存储格式时。

工作原理

  • 上传您的 Excel 文件(.xlsx 或 .xls),并可选择指定要转换的工作表名称和表头所在的行号。
  • 配置输出选项:选择生成 Parquet 文件、NDJSON 文件,或同时生成两者并打包为 ZIP。
  • 根据需要启用辅助功能,如自动清洗字段名(移除特殊字符)和将空单元格转换为 null 值。
  • 点击转换,工具将自动推断数据类型并生成指定格式的文件供您下载。

使用场景

数据仓库 ETL:将每日销售报表从 Excel 转换为 Parquet,加载到数据仓库中供 BI 工具分析。
流处理管道:将 Excel 格式的事件日志转换为 NDJSON,实时发送到 Kafka 等消息队列进行处理。
数据迁移与归档:将历史 Excel 数据批量转换为高效的 Parquet 格式,以节省存储空间并加速查询。

用户案例

1. 销售业绩报表转换

背景原因
数据分析师小王每周需要将一份包含销售明细的 Excel 报表导入公司的数据仓库进行汇总分析。
解决问题
手动将 Excel 数据录入数据库效率低下且容易出错,需要一种自动化方式将表格数据转换为数据仓库友好的格式。
如何使用
上传 `weekly_sales.xlsx` 文件,保持默认的“表头行”为 1,在“输出模式”中选择“Parquet 格式”。
效果
生成一个包含所有销售记录的 Parquet 文件,其列名和数据类型已自动优化,可直接通过 SQL 查询或加载到 Tableau 中。

2. 为混合数据管道准备数据

数据工程师
背景原因
数据工程师需要为同一个数据源同时准备批处理和流处理所需的数据格式。
解决问题
同一份 Excel 源数据需要同时用于每日批处理作业(使用 Parquet)和实时监控仪表板(使用 NDJSON),分别转换很麻烦。
如何使用
上传 `system_metrics.xlsx`,在“输出模式”中选择“Parquet + NDJSON(ZIP)”。
效果
下载一个 ZIP 压缩包,内含转换好的 metrics.parquet 文件和 metrics.ndjson 文件,可分别用于批处理和流处理管道。

3. 清洗并转换调查数据

市场研究员
背景原因
市场研究员收集了大量 Excel 格式的问卷调查结果,准备进行统计分析。
解决问题
Excel 表头包含空格和括号(如“Q1_年龄(岁)”),且部分单元格为空,直接用于 Python pandas 分析时需要额外清洗步骤。
如何使用
上传 `survey_results.xlsx`,勾选“清洗字段名”和“空值转 null”选项,输出模式选择“Parquet 格式”。
效果
得到一个 Parquet 文件,其中字段名已被清洗为“Q1_年龄_岁_”,空值被正确标记为 null,可直接用 pandas 的 `read_parquet()` 函数加载并开始分析。

用 Samples 测试

json, xml, xlsx

相关专题

常见问题

支持哪些 Excel 文件格式?

支持现代的 .xlsx 格式和旧的 .xls 格式。

可以只导出 Parquet 或 NDJSON 吗?

可以。在“输出模式”中,您可以选择仅导出 Parquet、仅导出 NDJSON,或同时导出两者(打包为 ZIP)。

“清洗字段名”选项有什么作用?

启用后,工具会自动将 Excel 表头中的空格和特殊字符替换为下划线,确保生成的字段名符合数据库或编程语言的命名规范。

“空值转 null”选项有什么作用?

启用后,Excel 中的空单元格在输出文件中会被表示为 null 值,而不是空字符串,这更符合数据库和数据分析工具的语义。

对上传的 Excel 文件大小有限制吗?

有,单个文件大小不能超过 100 MB。

API 文档

请求端点

POST /zh/api/tools/xlsx-parquet-exporter

请求参数

参数名 类型 必填 描述
excelFile file (需要先上传) -
sheetName text -
headerRow number -
outputMode select -
useSanitizedFieldNames checkbox -
nullForEmpty checkbox -

文件类型参数需要先通过 POST /upload/xlsx-parquet-exporter 上传获取 filePath,然后将 filePath 传递给对应的文件字段。

响应格式

{
  "filePath": "/public/processing/randomid.ext",
  "fileName": "output.ext",
  "contentType": "application/octet-stream",
  "size": 1024,
  "metadata": {
    "key": "value"
  },
  "error": "Error message (optional)",
  "message": "Notification message (optional)"
}
文件: 文件

AI MCP 文档

将此工具添加到您的 MCP 服务器配置中:

{
  "mcpServers": {
    "elysiatools-xlsx-parquet-exporter": {
      "name": "xlsx-parquet-exporter",
      "description": "将表格导出为 Parquet/NDJSON,用于大数据与数据仓库管道",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=xlsx-parquet-exporter",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

你可以串联多个工具,比如:`https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`,最多20个。

支持 URL 文件链接或 Base64 编码作为文件参数。

如果遇见问题,请联系我们:[email protected]