分类

离群值处理器

高级离群值检测和处理工具,使用多种统计方法识别、删除或替换数值数据中的异常值。完美用于数据清洗、统计分析和机器学习数据准备。 功能特点: - 多种检测方法(IQR、Z-score、修正Z-score、孤立森林) - 灵活处理策略(删除、替换均值/中位数/众数、封顶) - 自动阈值优化 - 多维离群值检测 - 可视化离群值统计和报告 - 批量处理能力 - 自定义敏感度级别 - 综合影响分析 常见用途: - 数据清洗和预处理 - 统计分析准备 - 机器学习数据集清洗 - 制造业质量控制 - 金融异常检测 - 传感器数据验证

Sensitivity threshold for outlier detection. Lower values detect more outliers.

添加列来标记哪些值被检测为离群值

Automatically find optimal threshold based on data distribution

关键信息

分类
Data Processing
输入类型
textarea, select, number, checkbox
输出类型
text
样本覆盖
4
支持 API
Yes

概览

离群值处理器是一款专业的数据清洗工具,支持通过 IQR、Z-Score、孤立森林等多种统计学方法,精准识别并处理数据集中的异常数值,助您快速完成统计分析或机器学习的数据预处理工作。

适用场景

  • 在进行统计分析前,需要剔除异常数据以确保结果的准确性。
  • 为机器学习模型准备训练集时,需要清洗掉可能干扰模型训练的离群点。
  • 在制造业或金融领域,需要实时监控并标记传感器数据或交易记录中的异常波动。

工作原理

  • 上传包含数值数据的 CSV 文件,系统将自动识别并加载数据列。
  • 选择合适的检测方法(如 IQR 或 Z-Score)并设置敏感度阈值。
  • 选择处理策略,包括删除异常行、用均值/中位数替换,或进行封顶处理。
  • 点击处理按钮,系统将生成清洗后的数据并提供详细的离群值统计报告。

使用场景

金融交易异常检测:快速识别并标记账户中的异常大额交易记录。
传感器数据验证:清洗工业传感器采集的噪声数据,确保生产监控的稳定性。
机器学习数据准备:通过自动替换或删除离群值,提升模型预测的鲁棒性。

用户案例

1. 清洗电商销售额数据

数据分析师
背景原因
分析师需要处理一份包含数万条订单的销售记录,其中存在部分录入错误的极端高额订单。
解决问题
极端异常值导致平均销售额统计严重偏离实际情况。
如何使用
上传 CSV 数据,选择 IQR 方法,设置处理策略为“替换”,并选择“中位数”作为替换值。
示例配置
detectionMethod: iqr, handlingStrategy: replace, replacementMethod: median
效果
异常高额订单被替换为中位数,修正后的数据集能够更准确地反映平均销售水平。

2. 制造业传感器数据预处理

质量控制工程师
背景原因
生产线上的温度传感器偶尔会产生瞬间的极值跳变,影响质量控制分析。
解决问题
需要剔除这些瞬间跳变点,但不能删除整行数据以防丢失其他维度信息。
如何使用
上传数据,选择“修正Z-Score”方法,处理策略选择“封顶”。
示例配置
detectionMethod: modified_zscore, handlingStrategy: cap
效果
极值被限制在合理范围内,传感器数据曲线变得平滑,便于后续的质量趋势分析。

用 Samples 测试

csv, video, qr

相关专题

常见问题

什么是 IQR 方法?

IQR(四分位距)方法通过计算数据的第 25% 和 75% 分位数之间的距离,识别超出 1.5 倍 IQR 范围的数据点。

孤立森林适用于什么场景?

孤立森林是一种基于机器学习的算法,特别适合处理多维数据中的复杂异常值检测。

处理策略中的“封顶”是什么意思?

封顶会将超出阈值的离群值强制设定为边界值(如上限或下限),从而保留数据量同时减小异常影响。

我可以只处理特定的列吗?

可以,您可以在“目标列”选项中指定需要检测的列名,未指定的列将保持不变。

处理后的数据可以保留原始值吗?

可以,勾选“标记离群值”选项,系统会添加一列标识符,在保留原始数据的同时标注出异常点。

API 文档

请求端点

POST /zh/api/tools/data-outlier-processor

请求参数

参数名 类型 必填 描述
inputData textarea -
targetColumns textarea -
detectionMethod select -
threshold number Sensitivity threshold for outlier detection. Lower values detect more outliers.
handlingStrategy select -
replacementMethod select -
preserveOriginal checkbox -
markOutliers checkbox 添加列来标记哪些值被检测为离群值
includeStatistics checkbox -
autoThreshold checkbox Automatically find optimal threshold based on data distribution
sensitivity select -

响应格式

{
  "result": "Processed text content",
  "error": "Error message (optional)",
  "message": "Notification message (optional)",
  "metadata": {
    "key": "value"
  }
}
文本: 文本

AI MCP 文档

将此工具添加到您的 MCP 服务器配置中:

{
  "mcpServers": {
    "elysiatools-data-outlier-processor": {
      "name": "data-outlier-processor",
      "description": "高级离群值检测和处理工具,使用多种统计方法识别、删除或替换数值数据中的异常值。完美用于数据清洗、统计分析和机器学习数据准备。

功能特点:
- 多种检测方法(IQR、Z-score、修正Z-score、孤立森林)
- 灵活处理策略(删除、替换均值/中位数/众数、封顶)
- 自动阈值优化
- 多维离群值检测
- 可视化离群值统计和报告
- 批量处理能力
- 自定义敏感度级别
- 综合影响分析

常见用途:
- 数据清洗和预处理
- 统计分析准备
- 机器学习数据集清洗
- 制造业质量控制
- 金融异常检测
- 传感器数据验证",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=data-outlier-processor",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

你可以串联多个工具,比如:`https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`,最多20个。

如果遇见问题,请联系我们:[email protected]