关键信息
- 分类
- Data Processing
- 输入类型
- textarea, select, number, checkbox
- 输出类型
- text
- 样本覆盖
- 4
- 支持 API
- Yes
概览
离群值处理器是一款专业的数据清洗工具,支持通过 IQR、Z-Score、孤立森林等多种统计学方法,精准识别并处理数据集中的异常数值,助您快速完成统计分析或机器学习的数据预处理工作。
适用场景
- •在进行统计分析前,需要剔除异常数据以确保结果的准确性。
- •为机器学习模型准备训练集时,需要清洗掉可能干扰模型训练的离群点。
- •在制造业或金融领域,需要实时监控并标记传感器数据或交易记录中的异常波动。
工作原理
- •上传包含数值数据的 CSV 文件,系统将自动识别并加载数据列。
- •选择合适的检测方法(如 IQR 或 Z-Score)并设置敏感度阈值。
- •选择处理策略,包括删除异常行、用均值/中位数替换,或进行封顶处理。
- •点击处理按钮,系统将生成清洗后的数据并提供详细的离群值统计报告。
使用场景
用户案例
1. 清洗电商销售额数据
数据分析师- 背景原因
- 分析师需要处理一份包含数万条订单的销售记录,其中存在部分录入错误的极端高额订单。
- 解决问题
- 极端异常值导致平均销售额统计严重偏离实际情况。
- 如何使用
- 上传 CSV 数据,选择 IQR 方法,设置处理策略为“替换”,并选择“中位数”作为替换值。
- 示例配置
-
detectionMethod: iqr, handlingStrategy: replace, replacementMethod: median - 效果
- 异常高额订单被替换为中位数,修正后的数据集能够更准确地反映平均销售水平。
2. 制造业传感器数据预处理
质量控制工程师- 背景原因
- 生产线上的温度传感器偶尔会产生瞬间的极值跳变,影响质量控制分析。
- 解决问题
- 需要剔除这些瞬间跳变点,但不能删除整行数据以防丢失其他维度信息。
- 如何使用
- 上传数据,选择“修正Z-Score”方法,处理策略选择“封顶”。
- 示例配置
-
detectionMethod: modified_zscore, handlingStrategy: cap - 效果
- 极值被限制在合理范围内,传感器数据曲线变得平滑,便于后续的质量趋势分析。
用 Samples 测试
csv, video, qr相关专题
常见问题
什么是 IQR 方法?
IQR(四分位距)方法通过计算数据的第 25% 和 75% 分位数之间的距离,识别超出 1.5 倍 IQR 范围的数据点。
孤立森林适用于什么场景?
孤立森林是一种基于机器学习的算法,特别适合处理多维数据中的复杂异常值检测。
处理策略中的“封顶”是什么意思?
封顶会将超出阈值的离群值强制设定为边界值(如上限或下限),从而保留数据量同时减小异常影响。
我可以只处理特定的列吗?
可以,您可以在“目标列”选项中指定需要检测的列名,未指定的列将保持不变。
处理后的数据可以保留原始值吗?
可以,勾选“标记离群值”选项,系统会添加一列标识符,在保留原始数据的同时标注出异常点。