关键信息
- 分类
- Data Processing
- 输入类型
- textarea, select, text, checkbox, number
- 输出类型
- text
- 样本覆盖
- 4
- 支持 API
- Yes
概览
Z-Score标准化工具通过将数值数据转换为均值为0、标准差为1的标准分数,帮助您消除不同量纲对数据分析的影响。该工具支持标准Z-Score与稳健Z-Score算法,并提供异常值检测、缺失值填充及统计摘要功能,是机器学习特征预处理与统计分析的理想选择。
适用场景
- •当数据集中的不同特征具有完全不同的量纲或单位,需要统一缩放以便进行比较时。
- •在构建机器学习模型前,需要对输入特征进行标准化以提升模型收敛速度和预测准确性时。
- •需要识别数据集中偏离正常分布范围的异常值,并进行统计分析时。
工作原理
- •粘贴您的CSV格式数据,工具将自动识别数值列或根据您的指定选择目标列。
- •选择标准化类型(标准Z-Score或抗异常值的稳健Z-Score),并配置缺失值处理策略。
- •设置异常值检测阈值,点击处理后,系统将输出标准化后的数据及详细的统计摘要报告。
使用场景
用户案例
1. 机器学习特征预处理
数据科学家- 背景原因
- 在准备一份包含“年龄”、“年收入”和“消费评分”的用户数据集时,由于收入数值远大于年龄,导致模型训练出现偏差。
- 解决问题
- 需要将所有特征缩放到统一尺度,同时剔除收入数据中的极端异常值。
- 如何使用
- 上传CSV数据,选择“Z-Score”标准化,开启“检测异常值”并设置阈值为2.5。
- 示例配置
-
standardizationType: zscore, detectOutliers: true, outlierThreshold: 2.5 - 效果
- 所有特征均被标准化,异常值被自动标记,模型训练收敛速度显著提升。
2. 多单位数据横向对比
市场分析师- 背景原因
- 需要对比不同地区的销售额(万元)和客户满意度(1-10分),两者单位完全不同,无法直接比较。
- 解决问题
- 通过标准化将两个维度的指标转化为无量纲分数,以便计算综合得分。
- 如何使用
- 输入销售数据,选择“稳健Z-Score”以减少个别极端销售月份对整体评估的影响。
- 示例配置
-
standardizationType: robust, handleMissing: fill_median - 效果
- 成功将销售额与满意度转化为可直接加权求和的标准化分数,生成了客观的地区排名。
用 Samples 测试
csv, video, barcode相关专题
常见问题
什么是Z-Score标准化?
Z-Score标准化是一种将数据按比例缩放的方法,使处理后的数据均值为0,标准差为1,从而消除量纲差异。
标准Z-Score与稳健Z-Score有什么区别?
标准Z-Score使用均值和标准差,对异常值敏感;稳健Z-Score使用中位数和MAD(绝对中位差),在存在异常值时表现更稳定。
工具如何处理缺失值?
您可以选择跳过包含缺失值的行,或使用均值、中位数、众数或零进行填充。
我可以保留原始数据列吗?
可以,勾选“保留原始列”选项,工具将在输出结果中同时包含原始数据和标准化后的数据。
异常值检测是如何工作的?
工具会根据您设定的标准差倍数阈值,标记出超出该范围的数据点,并在统计报告中列出。