Ключевые факты
- Категория
- Данные и таблицы
- Типы входных данных
- textarea, select, text, checkbox
- Тип результата
- text
- Покрытие примерами
- 4
- API доступен
- Yes
Обзор
Масштабировщик Признаков — это онлайн-инструмент для нормализации и стандартизации числовых данных с помощью различных методов, таких как Z-score, Min-Max и робастное масштабирование. Он предназначен для подготовки данных к машинному обучению, обеспечивая корректную работу алгоритмов и улучшая их производительность.
Когда использовать
- •Когда признаки в наборе данных имеют разные единицы измерения или диапазоны значений, например, возраст от 0 до 100 и доход от 1000 до 100000.
- •Перед обучением моделей машинного обучения, чувствительных к масштабу данных, таких как метод опорных векторов (SVM), k-ближайших соседей или нейронные сети.
- •Для улучшения сходимости градиентного спуска и повышения точности предсказаний в задачах регрессии или классификации.
Как это работает
- •Вставьте данные в формате CSV в текстовое поле или загрузите их, убедившись, что первая строка содержит заголовки (если применимо).
- •Выберите метод масштабирования из списка: стандартный (Z-score), минимаксный, робастный, максимальный абсолютный, квантильный, единичных векторов или степенное преобразование.
- •Укажите колонки для масштабирования через запятую или оставьте поле пустым для автоматического определения всех числовых колонок.
- •Настройте параметры вывода, такие как формат (CSV, JSON или текстовый отчет) и сохранение параметров для обратного преобразования, затем получите результат.
Сценарии использования
Примеры
1. Масштабирование данных для модели классификации
Аналитик данных- Контекст
- Аналитик работает с набором данных о клиентах, содержащим колонки 'возраст' (от 18 до 65), 'доход' (от 20000 до 150000) и 'количество_покупок' (от 0 до 50).
- Проблема
- Метод опорных векторов (SVM) показывает низкую точность из-за различий в масштабе признаков, что замедляет сходимость.
- Как использовать
- Вставьте CSV-данные в текстовое поле, выберите метод 'Стандартный Масштабировщик (Z-score)', оставьте поле колонок пустым для автоопределения и получите результат в формате CSV.
- Результат
- Все числовые колонки масштабированы с средним значением 0 и стандартным отклонением 1, что улучшило точность модели на 12% и ускорило обучение.
2. Обратное преобразование для интерпретации предсказаний
Инженер по машинному обучению- Контекст
- Инженер обучил модель прогнозирования продаж на масштабированных данных и получил предсказания в диапазоне от -1 до 1.
- Проблема
- Необходимо преобразовать предсказания обратно в исходные единицы (например, количество товаров) для составления бизнес-отчета.
- Как использовать
- Вставьте параметры масштабирования из предыдущего запуска в поле 'Параметры Масштабирования', установите флажок 'Обратное Преобразование' и загрузите масштабированные данные.
- Пример конфигурации
-
{"method": "minmax", "min": 0, "max": 1000, "columns": ["sales"]} - Результат
- Предсказания преобразованы в исходные значения от 0 до 1000, что позволило точно оценить ожидаемые продажи в штуках.
Проверить на примерах
csv, hashСвязанные хабы
FAQ
Какие методы масштабирования доступны в инструменте?
Доступны методы: стандартный (Z-score), минимаксный, робастный (медиана и MAD), максимальный абсолютный, квантильный, единичных векторов и степенное преобразование (Yeo-Johnson).
Можно ли масштабировать только определенные колонки в данных?
Да, в поле 'Колонки для Масштабирования' укажите имена колонок через запятую. Если оставить пустым, инструмент автоматически обнаружит и обработает все числовые колонки.
Что такое обратное преобразование и когда его использовать?
Обратное преобразование восстанавливает исходные данные из масштабированных значений, используя сохраненные параметры. Оно полезно для интерпретации результатов модели в исходных единицах.
Как сохранить параметры масштабирования для повторного использования?
Установите флажок 'Сохранить Параметры Масштабирования' перед запуском. Параметры будут включены в вывод в формате JSON, что позволяет применять обратное преобразование позже.
Поддерживает ли инструмент данные без заголовков колонок?
Да, снимите флажок 'Первая Строка Содержит Заголовки', если первая строка ваших данных содержит значения, а не названия колонок.