Ключевые факты
- Категория
- Данные и таблицы
- Типы входных данных
- textarea, file, text, select, number
- Тип результата
- html
- Покрытие примерами
- 4
- API доступен
- Yes
Обзор
Этот инструмент помогает анализировать CSV и JSON датасеты на предмет дисбаланса классов, что критически важно для задач машинного обучения. Укажите колонку с метками, и утилита автоматически рассчитает распределение, измерит степень перекоса и предложит оптимальную стратегию ресемплинга. Вы можете применить oversampling или undersampling и сразу сгенерировать превью сбалансированного набора данных в формате JSON или CSV для дальнейшего использования в ML-пайплайнах.
Когда использовать
- •При подготовке данных для моделей классификации, когда один из целевых классов значительно преобладает над другими.
- •Для быстрого аудита новых датасетов и оценки распределения меток перед началом машинного обучения.
- •При выборе между стратегиями oversampling и undersampling для балансировки обучающей выборки.
Как это работает
- •Вставьте текст CSV в поле ввода или загрузите готовый файл в формате CSV или JSON.
- •Укажите точное название колонки (Label Column), которая содержит целевые классы для анализа.
- •Выберите стратегию ресемплинга (oversample для дублирования меньшинства или undersample для усечения большинства) и формат экспорта.
- •Инструмент рассчитает метрики дисбаланса и сгенерирует отчет вместе с превью сбалансированного датасета в выбранном формате.
Сценарии использования
Примеры
1. Балансировка датасета транзакций (Fraud Detection)
Data Scientist- Контекст
- В датасете из 10 000 транзакций только 50 отмечены как мошеннические. Модель классификации выдает 99% точности, но полностью игнорирует фрод.
- Проблема
- Увеличить вес мошеннических транзакций для корректного обучения модели.
- Как использовать
- Загрузите файл transactions.csv, укажите колонку is_fraud и выберите стратегию oversample.
- Пример конфигурации
-
Label Column: is_fraud, Strategy: oversample, Export Format: csv - Результат
- Инструмент продублирует 50 мошеннических записей, создав сбалансированный набор, где оба класса имеют равное представительство, и покажет превью в формате CSV.
2. Уменьшение мажоритарного класса в медицинских тестах
ML-инженер- Контекст
- Имеется большой JSON-файл с результатами анализов, где здоровых пациентов 500 000, а больных — 10 000. Обучение на всем объеме занимает слишком много времени.
- Проблема
- Сократить размер датасета без потери данных о больных пациентах для быстрого прототипирования модели.
- Как использовать
- Загрузите JSON-файл, введите diagnosis в поле колонки метки и выберите стратегию undersample.
- Пример конфигурации
-
Label Column: diagnosis, Strategy: undersample, Export Format: json - Результат
- Инструмент случайным образом оставит 10 000 записей здоровых пациентов, выдав компактный и сбалансированный JSON-датасет из 20 000 строк для предпросмотра.
Проверить на примерах
json, csv, textСвязанные хабы
FAQ
Что такое oversampling и undersampling?
Oversampling дублирует случайные записи из класса меньшинства, чтобы сравнять его с большинством. Undersampling, наоборот, удаляет записи из мажоритарного класса до размера миноритарного.
Какие форматы файлов поддерживаются?
Вы можете вставить сырой текст CSV или загрузить файлы с расширениями .csv и .json размером до 20 МБ.
Зачем нужно балансировать датасет?
Если один класс доминирует, модель машинного обучения может начать игнорировать редкие классы, всегда предсказывая мажоритарный. Балансировка помогает повысить точность предсказаний для меньшинства.
Как получить результаты ресемплинга?
Инструмент генерирует предпросмотр сбалансированных данных в формате JSON или CSV. Количество отображаемых строк настраивается параметром Preview Rows.
Поддерживает ли инструмент генерацию синтетических данных (например, SMOTE)?
Нет, данный инструмент использует базовые методы случайного дублирования и усечения существующих строк. Он помогает быстро оценить дисбаланс и решить, нужен ли SMOTE на следующих этапах.