数据质量画像师

对 CSV 或 JSON 数据集进行质量画像,识别缺失值、重复行、格式漂移、类型推断和数值异常。

把 CSV 粘贴到“数据集输入”中,或直接上传 CSV/JSON 文件。这个工具会逐列检查,给你一个在进入 BI、ETL 或机器学习前的快速质量快照。

会检查什么:

  • 每列的缺失值
  • 重复行,或者基于“重复判定列”指定业务键的重复组合
  • 列类型推断:number、boolean、date、string 或 empty
  • 使用 IQR 风格规则识别数值异常值
  • 字符串/日期列的格式漂移,比如日期格式混用、编码字段和自由文本混杂

字段怎么填:

  • 数据集输入:适合直接粘贴 CSV 文本做快速分析
  • 数据文件:当数据更大或已经保存在本地时可直接上传 CSV/JSON
  • 重复判定列:可选,填写逗号分隔列名,例如 id,email,用业务键而不是整行来判定重复
  • 示例行数:控制报告里展示多少行样例数据

怎么看结果:

  • 质量评分是 0-100 的快速总结,缺失值、重复行和异常信号越多,分数越低
  • Missing 表示该列发现了多少空白/null 单元格
  • Distinct 表示该列有多少不同取值
  • Anomalies 主要表示数值异常值
  • Format drift 表示这一列里的值在结构上看起来不一致

当前范围:

  • 支持 CSV 和 JSON
  • JSON 需要是对象数组,或者包含 rows 数组的对象
  • 这个分数更适合做快速运营判断,不是严格的数据治理评级

示例结果

1 个示例

在导入 BI 前分析一份交易 CSV

在数据进入报表前识别缺失、异常、重复和类型漂移。

Dataset quality report
查看输入参数
{ "datasetInput": "id,name,email,amount,created_at\n1,Alice,[email protected],120,2026-03-01\n2,Bob,,85,2026-03-02\n2,Bob,[email protected],85,03/02/2026\n3,Charlie,[email protected],9999,2026-03-03", "datasetFile": "", "duplicateKeyColumns": "id", "sampleRows": 8 }

Click to upload file or drag and drop file here

Maximum file size: 15MB Supported formats: text/csv, application/json, text/plain

关键信息

分类
数据与表格
输入类型
textarea, file, text, number
输出类型
html
样本覆盖
4
支持 API
Yes

概览

数据质量画像师是一款专为数据分析师和开发者设计的在线工具,能够快速对 CSV 或 JSON 数据集进行质量体检。只需粘贴文本或上传文件,工具便会逐列扫描缺失值、重复行、格式漂移和数值异常,并生成直观的质量评分报告,帮助您在将数据导入 BI、ETL 或机器学习模型前,提前发现并规避潜在的数据质量风险。

适用场景

  • 在将外部获取的 CSV 或 JSON 数据源导入数据库或数据仓库前,进行快速的质量摸底。
  • 准备进行机器学习模型训练或 BI 报表制作时,排查数据集中存在的缺失值和异常数值。
  • 需要快速定位业务数据中的重复记录(如重复的用户 ID 或订单号)以及字段格式不一致的问题。

工作原理

  • 在“数据集输入”框中直接粘贴 CSV 文本,或通过“数据文件”上传本地的 CSV 或 JSON 文件。
  • (可选)在“重复判定列”中输入业务主键(如 id,email),工具将基于这些指定列而不是整行来判定重复项。
  • 设置“示例行数”以控制报告中展示的数据样例数量,然后提交分析。
  • 查看生成的 HTML 质量报告,获取 0-100 的整体质量评分,并逐列检查缺失率、唯一值、数值异常(基于 IQR 规则)和格式漂移情况。

使用场景

数据工程师在构建 ETL 管道前,对上游提供的原始业务数据进行质量探查。
数据分析师在制作 BI 销售看板前,检查交易记录中的缺失字段和异常金额。
运营人员在合并多渠道的用户名单时,通过指定邮箱或手机号列来排查重复用户。

用户案例

1. 导入 BI 前的交易数据体检

数据分析师
背景原因
分析师收到了一份包含近期交易记录的 CSV 文件,准备将其导入 BI 工具制作销售看板。
解决问题
担心数据中存在缺失的客户邮箱、重复的订单记录或异常的超大金额,导致报表失真。
如何使用
将 CSV 文本粘贴到“数据集输入”中,在“重复判定列”填写 id,并将“示例行数”设为 8。
示例配置
duplicateKeyColumns: id
sampleRows: 8
效果
报告显示质量评分为 85 分,成功识别出 amount 列存在一个 9999 的数值异常(Outlier),以及 created_at 列存在日期格式漂移(混用 YYYY-MM-DD 和 MM/DD/YYYY)。

2. 排查用户名单中的重复项与缺失值

运营专员
背景原因
运营团队从多个渠道收集了一批用户注册名单(JSON格式),准备进行邮件营销。
解决问题
需要确认名单中是否有重复注册的用户,并评估邮箱字段的缺失情况。
如何使用
上传包含用户数据的 JSON 文件,在“重复判定列”中输入 email,提交分析。
示例配置
duplicateKeyColumns: email
效果
快速生成质量快照,指出 email 列有 5% 的缺失值(Missing),并基于邮箱字段精准定位了多条重复记录。

用 Samples 测试

json, csv, text

相关专题

常见问题

支持哪些格式的数据文件?

目前支持 CSV 文本粘贴,以及上传 CSV 和 JSON 格式的文件。JSON 文件需要是对象数组,或者包含 rows 数组的对象。

质量评分(Quality Score)是如何计算的?

质量评分是一个 0-100 的快速参考值。数据集中包含的缺失值、重复行、格式漂移和异常数值越多,该评分就会越低。它适合作为快速的运营判断依据,而非严格的数据治理评级。

如何只针对特定列检查重复项?

您可以在“重复判定列”中填写逗号分隔的列名(例如 id,email)。工具将仅根据这些业务键的组合来判断是否存在重复记录,而不是比对整行数据。

报告中的“Format drift(格式漂移)”是什么意思?

格式漂移表示同一列中的数据在结构或格式上存在不一致。例如,日期列中混用了不同的日期格式,或者文本列中混杂了纯数字编码和自由文本。

这个工具会自动清洗或修改我的数据吗?

不会。该工具仅用于数据质量画像和分析,生成只读的 HTML 质量报告,不会对您的原始数据进行任何修改或清洗操作。

API 文档

请求端点

POST /zh/api/tools/dataset-quality-profiler

请求参数

参数名 类型 必填 描述
datasetInput textarea -
datasetFile file (需要先上传) -
duplicateKeyColumns text -
sampleRows number -

文件类型参数需要先通过 POST /upload/dataset-quality-profiler 上传获取 filePath,然后将 filePath 传递给对应的文件字段。

响应格式

{
  "result": "
Processed HTML content
", "error": "Error message (optional)", "message": "Notification message (optional)", "metadata": { "key": "value" } }
HTML: HTML

AI MCP 文档

将此工具添加到您的 MCP 服务器配置中:

{
  "mcpServers": {
    "elysiatools-dataset-quality-profiler": {
      "name": "dataset-quality-profiler",
      "description": "对 CSV 或 JSON 数据集进行质量画像,识别缺失值、重复行、格式漂移、类型推断和数值异常。",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=dataset-quality-profiler",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

你可以串联多个工具,比如:`https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`,最多20个。

支持 URL 文件链接或 Base64 编码作为文件参数。

如果遇见问题,请联系我们:[email protected]