Интерактивное исследование наиболее часто используемой функции потерь в машинном обучении
Когда предсказания неправильны с высокой уверенностью, потеря резко увеличивается. Это побуждает модели быть осторожными, когда они не уверены.
Использование логарифмической функции, потеря приближается к 0 для правильных предсказаний (вероятность около 1) и бесконечности для неправильных предсказаний (вероятность около 0).
Градиент указывает направление изменения потери. Отрицательный градиент означает, что увеличение предсказанной вероятности уменьшает потерю (когда y=1).
Softmax преобразует логиты в распределение вероятностей, сумма которого равна 1. Экспоненциальная функция гарантирует, что все выводы положительны.
Даже похожие значения логитов могут давать значительно разные вероятности после softmax. Относительные различия важнее абсолютных.
Параметр температуры контролирует 'резкость' вывода: высокая температура делает распределение более равномерным, низкая температура делает его более острым.
Сравнить потерю перекрестной энтропии со среднеквадратичной ошибкой (MSE) в задачах классификации
| Характеристика | Потеря Перекрестной Энтропии | Среднеквадратичная Ошибка (MSE) |
|---|---|---|
| Градиент для Неправильных Предсказаний | Большой градиент, быстрая коррекция | Малый градиент, медленная сходимость |
| Градиент для Правильных Предсказаний | Малый градиент, стабильная сходимость | Ненулевой градиент, может перелететь |
| Выпуклость | Выпукла для sigmoid/softmax | Глобально выпукла |
| Вероятностная Интерпретация | Оценка максимального правдоподобия | Метод наименьших квадратов |
| Лучший Случай Использования | Задачи классификации | Задачи регрессии |
Перекрестная энтропия измеряет разницу между двумя распределениями вероятностей. В классификации она представляет 'расстояние' между истинным и предсказанным распределениями. Минимизация перекрестной энтропии эквивалентна максимизации функции правдоподобия.
Перекрестная энтропия = Дивергенция KL + Энтропия. Поскольку энтропия истинного распределения постоянна, минимизация перекрестной энтропии эквивалентна минимизации дивергенции KL.
MSE предполагает нормально распределенные ошибки, подходит для регрессии. Но для классификации перекрестная энтропия обеспечивает более сильные градиентные сигналы, особенно когда предсказания неправильны, позволяя более быструю коррекцию модели.
Прямой вычисление log(0) вызывает числовое антипереполнение. Реализации обычно используют трюк log(sum(exp(x))) для avoidance этой проблемы.
Заменить жесткие метки (0,1) мягкими метками (например, 0.1, 0.9), чтобы предотвратить чрезмерную уверенность и улучшить обобщение.
Для несбалансированных наборов данных использовать взвешенную перекрестную энтропию, чтобы дать больший вес классам меньшинства.
Использовать sigmoid для бинарной классификации, softmax для мультикласса. Убедиться, что активация последнего слоя соответствует функции потерь.