Детектор дисбаланса датасета и ресемплер

Выявляет дисбаланс классов в CSV или JSON, сравнивает стратегии ресемплинга и показывает сбалансированный набор

Вставьте CSV-датасет или загрузите CSV/JSON, затем укажите колонку метки. Инструмент посчитает каждый класс, измерит дисбаланс, подскажет, безопаснее ли oversampling или undersampling, и создаст предварительный сбалансированный набор.

Как использовать:

  • Ввод датасета: вставьте CSV для быстрой проверки
  • Файл данных: загрузите CSV или JSON
  • Колонка метки: выберите целевой класс
  • Стратегия ресемплинга: none, oversample или undersample
  • Формат экспорта: предпросмотр в JSON или CSV
  • Строк предпросмотра: сколько строк сбалансированного набора показать

Примечания:

  • Oversample дублирует объекты меньшинства до размера большинства
  • Undersample сокращает большинство до размера меньшинства
  • Отчет сравнивает обе стратегии
  • Это помогает понять, нужен ли затем более продвинутый метод вроде SMOTE

Примеры результатов

1 Примеры

Проверить датасет мошенничества с соотношением 95:5

Измеряет перекос классов, сравнивает стратегии и показывает сбалансированный набор.

Original distribution
Показать параметры ввода
{ "datasetInput": "id,label,amount\n1,normal,20\n2,normal,21\n3,normal,19\n4,normal,22\n5,fraud,300", "labelColumn": "label", "strategy": "oversample", "exportFormat": "json", "previewRows": 10 }

Click to upload file or drag and drop file here

Maximum file size: 20MB Supported formats: text/csv, application/json, text/plain, .csv, .json

Ключевые факты

Категория
Данные и таблицы
Типы входных данных
textarea, file, text, select, number
Тип результата
html
Покрытие примерами
4
API доступен
Yes

Обзор

Этот инструмент помогает анализировать CSV и JSON датасеты на предмет дисбаланса классов, что критически важно для задач машинного обучения. Укажите колонку с метками, и утилита автоматически рассчитает распределение, измерит степень перекоса и предложит оптимальную стратегию ресемплинга. Вы можете применить oversampling или undersampling и сразу сгенерировать превью сбалансированного набора данных в формате JSON или CSV для дальнейшего использования в ML-пайплайнах.

Когда использовать

  • При подготовке данных для моделей классификации, когда один из целевых классов значительно преобладает над другими.
  • Для быстрого аудита новых датасетов и оценки распределения меток перед началом машинного обучения.
  • При выборе между стратегиями oversampling и undersampling для балансировки обучающей выборки.

Как это работает

  • Вставьте текст CSV в поле ввода или загрузите готовый файл в формате CSV или JSON.
  • Укажите точное название колонки (Label Column), которая содержит целевые классы для анализа.
  • Выберите стратегию ресемплинга (oversample для дублирования меньшинства или undersample для усечения большинства) и формат экспорта.
  • Инструмент рассчитает метрики дисбаланса и сгенерирует отчет вместе с превью сбалансированного датасета в выбранном формате.

Сценарии использования

Анализ транзакций на предмет мошенничества (фрода), где легитимных операций всегда в сотни раз больше.
Подготовка медицинских данных для диагностики редких заболеваний, чтобы модель не игнорировала положительные диагнозы.
Прогнозирование оттока клиентов (churn rate), где ушедшие пользователи составляют лишь малую часть от общей базы.

Примеры

1. Балансировка датасета транзакций (Fraud Detection)

Data Scientist
Контекст
В датасете из 10 000 транзакций только 50 отмечены как мошеннические. Модель классификации выдает 99% точности, но полностью игнорирует фрод.
Проблема
Увеличить вес мошеннических транзакций для корректного обучения модели.
Как использовать
Загрузите файл transactions.csv, укажите колонку is_fraud и выберите стратегию oversample.
Пример конфигурации
Label Column: is_fraud, Strategy: oversample, Export Format: csv
Результат
Инструмент продублирует 50 мошеннических записей, создав сбалансированный набор, где оба класса имеют равное представительство, и покажет превью в формате CSV.

2. Уменьшение мажоритарного класса в медицинских тестах

ML-инженер
Контекст
Имеется большой JSON-файл с результатами анализов, где здоровых пациентов 500 000, а больных — 10 000. Обучение на всем объеме занимает слишком много времени.
Проблема
Сократить размер датасета без потери данных о больных пациентах для быстрого прототипирования модели.
Как использовать
Загрузите JSON-файл, введите diagnosis в поле колонки метки и выберите стратегию undersample.
Пример конфигурации
Label Column: diagnosis, Strategy: undersample, Export Format: json
Результат
Инструмент случайным образом оставит 10 000 записей здоровых пациентов, выдав компактный и сбалансированный JSON-датасет из 20 000 строк для предпросмотра.

Проверить на примерах

json, csv, text

Связанные хабы

FAQ

Что такое oversampling и undersampling?

Oversampling дублирует случайные записи из класса меньшинства, чтобы сравнять его с большинством. Undersampling, наоборот, удаляет записи из мажоритарного класса до размера миноритарного.

Какие форматы файлов поддерживаются?

Вы можете вставить сырой текст CSV или загрузить файлы с расширениями .csv и .json размером до 20 МБ.

Зачем нужно балансировать датасет?

Если один класс доминирует, модель машинного обучения может начать игнорировать редкие классы, всегда предсказывая мажоритарный. Балансировка помогает повысить точность предсказаний для меньшинства.

Как получить результаты ресемплинга?

Инструмент генерирует предпросмотр сбалансированных данных в формате JSON или CSV. Количество отображаемых строк настраивается параметром Preview Rows.

Поддерживает ли инструмент генерацию синтетических данных (например, SMOTE)?

Нет, данный инструмент использует базовые методы случайного дублирования и усечения существующих строк. Он помогает быстро оценить дисбаланс и решить, нужен ли SMOTE на следующих этапах.

Документация API

Конечная точка запроса

POST /ru/api/tools/dataset-imbalance-detector-resampler

Параметры запроса

Имя параметра Тип Обязательно Описание
datasetInput textarea Нет -
datasetFile file (Требуется загрузка) Нет -
labelColumn text Да -
strategy select Нет -
exportFormat select Нет -
previewRows number Нет -

Параметры типа файл должны быть загружены сначала через POST /upload/dataset-imbalance-detector-resampler для получения filePath, затем filePath должен быть передан в соответствующее поле файла.

Формат ответа

{
  "result": "
Processed HTML content
", "error": "Error message (optional)", "message": "Notification message (optional)", "metadata": { "key": "value" } }
HTML: HTML

Документация MCP

Добавьте этот инструмент к конфигурации сервера MCP:

{
  "mcpServers": {
    "elysiatools-dataset-imbalance-detector-resampler": {
      "name": "dataset-imbalance-detector-resampler",
      "description": "Выявляет дисбаланс классов в CSV или JSON, сравнивает стратегии ресемплинга и показывает сбалансированный набор",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=dataset-imbalance-detector-resampler",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

Вы можете объединять несколько инструментов, например: `https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`, максимум 20 инструментов.

Поддерживает ссылки на файлы URL или кодирование Base64 для параметров файла.

Если вы столкнулись с проблемами, пожалуйста, свяжитесь с нами по адресу [email protected]