Что такое oversampling и undersampling?

Oversampling дублирует случайные записи из класса меньшинства, чтобы сравнять его с большинством. Undersampling, наоборот, удаляет записи из мажоритарного класса до размера миноритарного.

Какие форматы файлов поддерживаются?

Вы можете вставить сырой текст CSV или загрузить файлы с расширениями .csv и .json размером до 20 МБ.

Зачем нужно балансировать датасет?

Если один класс доминирует, модель машинного обучения может начать игнорировать редкие классы, всегда предсказывая мажоритарный. Балансировка помогает повысить точность предсказаний для меньшинства.

Как получить результаты ресемплинга?

Инструмент генерирует предпросмотр сбалансированных данных в формате JSON или CSV. Количество отображаемых строк настраивается параметром Preview Rows.

Поддерживает ли инструмент генерацию синтетических данных (например, SMOTE)?

Нет, данный инструмент использует базовые методы случайного дублирования и усечения существующих строк. Он помогает быстро оценить дисбаланс и решить, нужен ли SMOTE на следующих этапах.

Elysia Tools

Навигация

Data Analysis

Детектор дисбаланса датасета и ресемплер

Выявляет дисбаланс классов в CSV или JSON, сравнивает стратегии ресемплинга и показывает сбалансированный набор

Детали

С чем помогает этот инструмент

Вставьте CSV-датасет или загрузите CSV/JSON, затем укажите колонку метки. Инструмент посчитает каждый класс, измерит дисбаланс, подскажет, безопаснее ли oversampling или undersampling, и создаст предварительный сбалансированный набор.

Как использовать:

Ввод датасета: вставьте CSV для быстрой проверки
Файл данных: загрузите CSV или JSON
Колонка метки: выберите целевой класс
Стратегия ресемплинга: none, oversample или undersample
Формат экспорта: предпросмотр в JSON или CSV
Строк предпросмотра: сколько строк сбалансированного набора показать

Примечания:

Oversample дублирует объекты меньшинства до размера большинства
Undersample сокращает большинство до размера меньшинства
Отчет сравнивает обе стратегии
Это помогает понять, нужен ли затем более продвинутый метод вроде SMOTE

Запуск

Запустить этот инструмент

Заполните форму, запустите инструмент и посмотрите результат на этой же странице.

Подготовленные примеры запуска

Нажмите пример, чтобы автоматически заполнить форму. Файлы по-прежнему нужно загрузить.

1 примеров

Проверить датасет мошенничества с соотношением 95:5

Измеряет перекос классов, сравнивает стратегии и показывает сбалансированный набор.

<div>Original distribution</div>

Ввод

Заполните нужные поля и запустите инструмент.

6 параметров

ФайлыЗагрузите исходные файлы для этого сценария.1

Файл данныхfileНеобязательно

Максимальный размер одного файла: 20 MBПоддерживаемые типы: text/csv, application/json, text/plain, .csv, .json

СодержимоеВставьте или введите основные значения.2

Ввод датасетаtextareaНеобязательноКолонка меткиtextОбязательно

НастройкиНастройте форматы, диапазоны, числа и режимы.3

Стратегия ресемплингаselectНеобязательноФормат экспортаselectНеобязательноСтрок предпросмотраnumberНеобязательно

Результат

Готово к запуску

После запуска здесь появятся файлы, текст, структурированные данные или потоковый вывод.

Примеры

Примеры для этого инструмента

Связано

Детектор дисбаланса датасета и ресемплер

С чем помогает этот инструмент

Запустить этот инструмент

Подготовленные примеры запуска

Ввод

Результат

Примеры для этого инструмента

Продолжить с похожими инструментами и темами

Подготовленные примеры запуска

Ввод

Результат

Узнайте, когда использовать этот инструмент, что он поддерживает и как его применяют пользователи.

Ключевые факты

Обзор

Когда использовать

Как это работает

Сценарии использования

Примеры

1. Балансировка датасета транзакций (Fraud Detection)

2. Уменьшение мажоритарного класса в медицинских тестах

FAQ

CSV Примеры

Примеры Python

Примеры Распределенного Трейсинга

Примеры JWT

Детектор аномалий временных рядов

Профилировщик качества датасетов

Детектор конфликтов префиксов и сокращений в mock-данных

Анализатор прогноза и сезонности

Инструменты JSON-обмена и перевода форматов

Инструменты конвертации регистра, кодировки и нормализации текста

Инструменты для проверки, diff и преобразования JSON

Инструменты экспорта CSV и конвертации таблиц