关键信息
- 分类
- 数据与表格
- 输入类型
- textarea, file, text, number
- 输出类型
- html
- 样本覆盖
- 4
- 支持 API
- Yes
概览
数据质量画像师是一款专为数据分析师和开发者设计的在线工具,能够快速对 CSV 或 JSON 数据集进行质量体检。只需粘贴文本或上传文件,工具便会逐列扫描缺失值、重复行、格式漂移和数值异常,并生成直观的质量评分报告,帮助您在将数据导入 BI、ETL 或机器学习模型前,提前发现并规避潜在的数据质量风险。
适用场景
- •在将外部获取的 CSV 或 JSON 数据源导入数据库或数据仓库前,进行快速的质量摸底。
- •准备进行机器学习模型训练或 BI 报表制作时,排查数据集中存在的缺失值和异常数值。
- •需要快速定位业务数据中的重复记录(如重复的用户 ID 或订单号)以及字段格式不一致的问题。
工作原理
- •在“数据集输入”框中直接粘贴 CSV 文本,或通过“数据文件”上传本地的 CSV 或 JSON 文件。
- •(可选)在“重复判定列”中输入业务主键(如 id,email),工具将基于这些指定列而不是整行来判定重复项。
- •设置“示例行数”以控制报告中展示的数据样例数量,然后提交分析。
- •查看生成的 HTML 质量报告,获取 0-100 的整体质量评分,并逐列检查缺失率、唯一值、数值异常(基于 IQR 规则)和格式漂移情况。
使用场景
用户案例
1. 导入 BI 前的交易数据体检
数据分析师- 背景原因
- 分析师收到了一份包含近期交易记录的 CSV 文件,准备将其导入 BI 工具制作销售看板。
- 解决问题
- 担心数据中存在缺失的客户邮箱、重复的订单记录或异常的超大金额,导致报表失真。
- 如何使用
- 将 CSV 文本粘贴到“数据集输入”中,在“重复判定列”填写 id,并将“示例行数”设为 8。
- 示例配置
-
duplicateKeyColumns: id sampleRows: 8 - 效果
- 报告显示质量评分为 85 分,成功识别出 amount 列存在一个 9999 的数值异常(Outlier),以及 created_at 列存在日期格式漂移(混用 YYYY-MM-DD 和 MM/DD/YYYY)。
2. 排查用户名单中的重复项与缺失值
运营专员- 背景原因
- 运营团队从多个渠道收集了一批用户注册名单(JSON格式),准备进行邮件营销。
- 解决问题
- 需要确认名单中是否有重复注册的用户,并评估邮箱字段的缺失情况。
- 如何使用
- 上传包含用户数据的 JSON 文件,在“重复判定列”中输入 email,提交分析。
- 示例配置
-
duplicateKeyColumns: email - 效果
- 快速生成质量快照,指出 email 列有 5% 的缺失值(Missing),并基于邮箱字段精准定位了多条重复记录。
用 Samples 测试
json, csv, text相关专题
常见问题
支持哪些格式的数据文件?
目前支持 CSV 文本粘贴,以及上传 CSV 和 JSON 格式的文件。JSON 文件需要是对象数组,或者包含 rows 数组的对象。
质量评分(Quality Score)是如何计算的?
质量评分是一个 0-100 的快速参考值。数据集中包含的缺失值、重复行、格式漂移和异常数值越多,该评分就会越低。它适合作为快速的运营判断依据,而非严格的数据治理评级。
如何只针对特定列检查重复项?
您可以在“重复判定列”中填写逗号分隔的列名(例如 id,email)。工具将仅根据这些业务键的组合来判断是否存在重复记录,而不是比对整行数据。
报告中的“Format drift(格式漂移)”是什么意思?
格式漂移表示同一列中的数据在结构或格式上存在不一致。例如,日期列中混用了不同的日期格式,或者文本列中混杂了纯数字编码和自由文本。
这个工具会自动清洗或修改我的数据吗?
不会。该工具仅用于数据质量画像和分析,生成只读的 HTML 质量报告,不会对您的原始数据进行任何修改或清洗操作。