数据质量、去重与异常检测工具
在一个数据质量工作流专题里检查 CSV/JSON 数据集,比较表格版本,发现重复、离群值、缺失值问题、关联断裂和时序异常。
这个专题聚焦在 BI、ETL、报表、迁移或机器学习使用数据之前常见的一组检查:数据概览、去重、表格差异比对、外键关系校验、边界值处理、缺失值补全和异常排查。它帮助用户从一份看起来可疑的导出数据,更快走到可继续使用的清理结果,而不用在无关工具之间来回跳转。
专题信息
- 任务类型
- analyze
- Families
- data-quality, anomaly, csv
- 工具数
- 13
- 子簇
- 3
为什么会有这个专题
数据质量排查通常不只做一步,重复值、缺失值、离群点和关联断裂往往需要放在一起看,才能判断数据能不能继续使用。
把概览、异常检测和修复类工具放在一起,更方便用户决定哪些数据应该过滤、截断、补值,或者交给人工复核。
当一份 CSV 或 JSON 导出结果看起来不对劲、但问题来源还不明确时,它能给分析、运营和迁移负责人一个更快的起点。
精选工具
数据质量画像师
对 CSV 或 JSON 数据集进行质量画像,识别缺失值、重复行、格式漂移、类型推断和数值异常。
数据去重工具
基于多列组合移除重复记录
CSV过滤器
按列值过滤CSV数据,支持多个条件和运算符。支持12种过滤运算符,包括等于、包含、大于、小于和空值检查。
额外过滤器示例:
[{"column": "年龄", "operator": "greater_than", "value": "25"}]
[{"column": "状态", "operator": "equals", "value": "激活"}, {"column": "分数", "operator": "greater_equal", "value": "80"}]
[{"column": "姓名", "operator": "contains", "value": "张"}, {"column": "邮箱", "operator": "is_not_empty"}]
CSV / Excel 差异比对工具
比较两个 CSV 或 XLSX 数据源,导出包含行级、列级和单元格差异的 PDF 报告
外键验证器
验证多个数据集之间的外键关系。非常适合检查数据完整性、查找孤立记录和确保相关表之间的引用一致性。
边界值处理器
高级边界值处理工具,用于识别和处理数值数据中的最小值和最大值。完美适用于数据验证、范围检查、统计分析和数据预处理。
功能特点:
- 多种边界检测方法(绝对值、百分位数、标准差)
- 灵活处理策略(裁剪、删除、替换、变换)
- 自定义范围验证
- 非对称边界处理
- 批量处理能力
- 综合边界统计
- 数据质量评估
- 可视化边界报告
常见用途:
- 数据验证和质量控制
- 传感器数据范围检查
- 金融数据限制执行
- 统计数据预处理
- 机器学习特征工程
- 数据库约束验证
数据插值器
高级数据插值工具,使用多种数学方法填补缺失值和生成数据点。完美适用于时间序列分析、数据补全、信号处理和科学计算。
功能特点:
- 多种插值方法(线性、多项式、样条、三次)
- 支持日期/时间的时间序列插值
- 前向填充和后向填充选项
- 最近邻插值
- 自定义插值参数
- 缺失值检测和报告
- 数据点生成和加密
- 同时支持多列处理
- 交互式插值预览
常见用途:
- 传感器数据填补
- 金融数据补全
- 科学实验数据处理
- 时间序列预测准备
- 图像和信号处理
- 统计数据插补
异常值检测器
使用多种统计方法检测数值数据中的异常值,包括IQR、Z-score和修正Z-score
时间序列异常检测器
上传 CSV 或 JSON 时间序列数据,基于 Z-Score 和 IQR 检测异常点,并输出带图表的报告
箱线图生成器
生成箱线图进行统计分布分析,包含四分位数、须线和异常值检测
Z 分数计算器
根据原始值、数据集或手动输入的均值与标准差计算 Z 分数
截尾平均计算器
从低端和高端删除相同比例的数据后计算截尾平均
缩尾平均计算器
通过限制低端和高端极值后求平均来计算缩尾平均
用 Samples 测试
data-quality, anomaly, csv相关专题
常见问题
这个专题可以帮我做什么?
它可以帮助你概览表格数据质量、比较版本差异、移除重复行、检查离群值、校验关联关系、补齐缺失值,并在数据进入下游流程前先发现明显异常。
这个专题适合哪些人?
它适合分析师、ETL 与数据平台团队、运营负责人、数据迁移项目、质量审核人员,以及所有需要判断一份 CSV 或 JSON 数据是否足够可靠的人。
如果我已经觉得这份数据有问题,应该先从哪里开始?
先用数据质量概览工具做一次全局体检,再根据主要问题继续进入去重、表格差异比对、异常检测或外键校验,看看问题更像是重复、漂移、缺失还是关联断裂。