?
Applying CHAID for logistic regression diagnostics and classification accuracy improvement
В данной работе представляется подход, основанный на CHAID, для определения гетерогенности точности классификации между сегментами наблюдений. Он помогает решить некоторые важные проблемы, стоящие перед человеком, строящим модель: (1) Как автоматически определять сегменты, в которых модель существенно хуже работает? и (2) Как использовать знание о гетерогенности точности классификации между сегментами для разделения наблюдений с целью получения большей точности предсказания? Подход был применен к данным по уходу клиентов из архива данных UCI Repository of Machine Learning Databases. Посредством разбиения набора данных на четыре части, которые были получены на основании использования дерева классификации, и построения отдельных логистических регрессионных скоринговых моделей для каждого сегмента мы повысили точность более чем на 7 процентных пунктов на тестовой выборке. Также наблюдалось существенное повышение в показателях recall и precision. Было показано, что в различных сегментах могут быть абсолютно разные предикторы ухода клиентов. Поэтому такое разделение дает лучшее понимание факторов, влияющих на поведение потребителей.