?
Инструменты машинного обучения в задачах отбора детерминант социально-экономического положения и потенциала развития регионов России
Предмет. Отбор детерминант, значимых для оценки уровня социально-экономического положения и потенциала развития регионов России.
Цели. Исследование алгоритмов машинного обучения для отбора детерминант – предикторов уровня социально-экономического положения и потенциала развития регионов России. Построение моделей классификации регионов по уровню социально-экономического положения с применением различных алгоритмов машинного обучения.
Методология. Для построения моделей классификации использованы данные Федеральной службы государственной статистики, Института научных коммуникаций, информационного агентства РИА Новости и интернет-портала TAdviser. Процедуры классификации данных, оценки параметров модели, отбора значимых детерминант и визуализации результатов выполнены с применением основных функций библиотеки PyCaret. В качестве приоритетных метрик оценки продуктивности моделей использованы статистика Каппа Коэна и коэффициент корреляции Мэтьюса. Алгоритмы отбора детерминант реализованы в аналитической среде Google Colab.
Результаты. Построены модели многоклассовой классификации, основанные на простых и ансамблевых алгоритмах машинного обучения. Простые алгоритмы классификации, включающие модели логистической и ридж-регрессии, наивный байесовский алгоритм, дерево решений, методы опорных векторов и k-ближайших соседей, характеризуются значениями точности на уровне 77%, однако статистика Каппа Коэна и коэффициент корреляции Мэтьюса свидетельствуют только лишь об удовлетворительной связи между фактическим и прогнозным значением класса региона. Ансамблевые алгоритмы в числе которых случайный лес, градиентный бустинг и экстремальный градиентный бустинг характеризуются тесной связью между фактической и прогнозной оценками классификатора на уровне более 70%.
Выводы. Наиболее эффективной моделью классификации признан алгоритм случайного леса. Информативными детерминантами для определения уровня социально-экономического положения являются валовой региональный продукт, инвестиции в основной капитал.