Скоринговая модель может быть блестящей на этапе обучения, показывать отличные значения всех метрик на кросс-валидации и радовать бизнес на первых неделях после деплоя. Но вжух — и через два месяца валидационные метрики поползли вниз, отклонения по PSI зашкаливают, а product owner уже поглядывает в твою сторону с подозрением.
Проблема? Проблема.
Давайте разберемся, почему так происходит и как можно этого избежать.
Проблематика: понять, когда модель «устала»
«Вчера было нормально» — это классическая проблема при построении модели, которая работает с динамически изменяющимися признаками. Стабильные на обучении фичи внезапно начинают вести себя иначе на out-of-sample или даже в проде.
**В чем же причина деградации перфоманса модели? **
Ответ довольно прост — данные меняются:
Feature drift — изменение распределения признаков.
Concept drift — поведение таргета изменилось, и прежние закономерности больше не работают.
Пожалуй, каждый, кто работал со скоринговыми моделями, хоть раз сталкивался с PSI (Population Stability Index). Именно её чаще всего используют как первый индикатор, что в модели что-то пошло не так: изменилось распределение признака, сместился скор или же просто пользователи стали другими.
Но одного PSI зачастую бывает недостаточно. Поэтому нужен набор мониторинговых метрик стабильности, где у каждой своя зона ответственности. Ниже — метрики, которые используем мы:
Population Stability Index Сравнивает гистограммы двух выборок, в нашем случае —- обучающей и продовой, и оценивает, насколько изменилось распределение. Простая, легко интерпретируемая метрика.
KS (Kolmogorov–Smirnov Statistic) Измеряет максимальное расстояние между кумулятивными распределениями. Хорошо показывает резкие смещения, но чувствительна к скачкам в хвостах.
KL Divergence (Kullback–Leibler Divergence) Мера «информационной дистанции» между двумя распределениями. Неустойчива к выбросам и нулям, требует сглаживания.
JH Divergence (Jensen–Shannon Divergence) Симметричная и сглаженная версия KL.
Wasserstein Distance (aka. Earth Mover’s Distance) Расстояние между формой двух распределений. Очень чувствительная метрика, полезна при улавливании минимальных сдвигов.