什么是过采样（Oversample）和欠采样（Undersample）？

过采样是通过随机复制少数类样本使其数量与多数类一致；欠采样则是随机裁剪多数类样本，使其数量降至与少数类相同。

工具支持哪些格式的数据集输入？

支持直接粘贴 CSV 格式的文本，或者上传本地的 CSV 和 JSON 数据文件。

为什么需要处理数据集不平衡？

如果数据集中某类样本过多，机器学习模型可能会倾向于预测多数类，导致对少数类（如欺诈检测中的异常交易）的识别能力极差。

导出的平衡数据集可以直接用于训练吗？

可以。您可以通过选择 CSV 或 JSON 格式导出预览数据，用于初步的模型训练和基线测试。

预览行数有什么作用？

预览行数用于限制在结果报告中展示的平衡后数据条数，支持设置 3 到 50 行，方便快速检查数据格式是否正确。

Elysia Tools

导航

Data Analysis

数据集不平衡检测与重采样

检测 CSV 或 JSON 数据集中的类别不平衡，对比重采样策略，并预览平衡后的输出数据集

详情

这个工具可以帮你完成什么

粘贴 CSV 数据集或上传 CSV/JSON 文件，然后指定分类标签列。工具会统计每个类别的数量，计算不平衡比例，提示更适合使用过采样还是欠采样，并生成平衡数据预览。

使用说明：

数据集输入：适合快速粘贴 CSV
数据文件：适合上传已有的 CSV 或 JSON
标签列：指定要分析的目标类别字段
重采样策略：选择 none、oversample 或 undersample
导出格式：以 JSON 或 CSV 预览平衡结果
预览行数：控制预览表里显示多少行

说明：

过采样会复制少数类样本直到接近多数类数量
欠采样会裁剪多数类样本到少数类规模
报告会同时展示两种策略的对比分布
如果后续要做更高级的 ML 处理，这个工具可以帮助判断是否值得再引入 SMOTE

执行

运行这个工具

填写表单、运行工具，并在同一页面查看结果。

结果

等待运行

运行工具后，这里会展示文件、文本、结构化数据或流式返回结果。

案例

数据集不平衡检测与重采样

这个工具可以帮你完成什么

运行这个工具

预设示例运行

输入参数

结果

与这个工具匹配的案例

继续查看相关工具与专题

预设示例运行

输入参数

结果

详细了解工具的适用范围、支持能力及用户案例。

关键事实

概览

适用场景

使用方式

常见用途

示例

1. 信用卡欺诈数据集重采样

2. 医疗疾病预测数据平衡

常见问题

CSV示例

Python 示例

分布式追踪示例

JWT 示例

时间序列异常检测器

数据质量画像师

Mock Data 命名前缀 / 缩写冲突检测器

时间序列预测与季节性分析

JSON 交换与格式翻译工具

文本大小写、编码与规范化转换工具

JSON 检查、对比与转换工具

CSV 导出与表格转换工具