支持哪些格式的数据文件？

目前支持 CSV 文本粘贴，以及上传 CSV 和 JSON 格式的文件。JSON 文件需要是对象数组，或者包含 rows 数组的对象。

质量评分（Quality Score）是如何计算的？

质量评分是一个 0-100 的快速参考值。数据集中包含的缺失值、重复行、格式漂移和异常数值越多，该评分就会越低。它适合作为快速的运营判断依据，而非严格的数据治理评级。

如何只针对特定列检查重复项？

您可以在“重复判定列”中填写逗号分隔的列名（例如 id,email）。工具将仅根据这些业务键的组合来判断是否存在重复记录，而不是比对整行数据。

报告中的“Format drift（格式漂移）”是什么意思？

格式漂移表示同一列中的数据在结构或格式上存在不一致。例如，日期列中混用了不同的日期格式，或者文本列中混杂了纯数字编码和自由文本。

这个工具会自动清洗或修改我的数据吗？

不会。该工具仅用于数据质量画像和分析，生成只读的 HTML 质量报告，不会对您的原始数据进行任何修改或清洗操作。

Elysia Tools

导航

Data Analysis

数据质量画像师

对 CSV 或 JSON 数据集进行质量画像，识别缺失值、重复行、格式漂移、类型推断和数值异常。

详情

这个工具可以帮你完成什么

把 CSV 粘贴到“数据集输入”中，或直接上传 CSV/JSON 文件。这个工具会逐列检查，给你一个在进入 BI、ETL 或机器学习前的快速质量快照。

会检查什么：

每列的缺失值
重复行，或者基于“重复判定列”指定业务键的重复组合
列类型推断：number、boolean、date、string 或 empty
使用 IQR 风格规则识别数值异常值
字符串/日期列的格式漂移，比如日期格式混用、编码字段和自由文本混杂

字段怎么填：

数据集输入：适合直接粘贴 CSV 文本做快速分析
数据文件：当数据更大或已经保存在本地时可直接上传 CSV/JSON
重复判定列：可选，填写逗号分隔列名，例如 id,email，用业务键而不是整行来判定重复
示例行数：控制报告里展示多少行样例数据

怎么看结果：

质量评分是 0-100 的快速总结，缺失值、重复行和异常信号越多，分数越低
Missing 表示该列发现了多少空白/null 单元格
Distinct 表示该列有多少不同取值
Anomalies 主要表示数值异常值
Format drift 表示这一列里的值在结构上看起来不一致

当前范围：

支持 CSV 和 JSON
JSON 需要是对象数组，或者包含 rows 数组的对象
这个分数更适合做快速运营判断，不是严格的数据治理评级

执行

运行这个工具

填写表单、运行工具，并在同一页面查看结果。

结果

等待运行

运行工具后，这里会展示文件、文本、结构化数据或流式返回结果。

案例

数据质量画像师

这个工具可以帮你完成什么

运行这个工具

预设示例运行

输入参数

结果

与这个工具匹配的案例

继续查看相关工具与专题

预设示例运行

输入参数

结果

详细了解工具的适用范围、支持能力及用户案例。

关键事实

概览

适用场景

使用方式

常见用途

示例

1. 导入 BI 前的交易数据体检

2. 排查用户名单中的重复项与缺失值

常见问题

CSV示例

Python 示例

JWT 示例

Apache Arrow 示例

结构化日志解析器

数据集不平衡检测与重采样

时间序列异常检测器

时间序列预测与季节性分析

JSON 格式化、对比与规范化工具

数据质量、去重与异常检测工具

文本脱敏、高亮与展示格式化工具

JSON 交换与格式翻译工具