?
ПРЕДСКАЗАНИЕ ЧАСТИЧНОГО НЕОТВЕТА НА ПРИМЕРЕ ДАННЫХ EUROPEAN SOCIAL SURVEY С ИСПОЛЬЗОВАНИЕМ ЛОГИСТИЧЕСКОЙ РЕГРЕССИИ
Пропуски в данных представляют собой актуальную проблему в социологических исследованиях. Одним из источников пропусков в данных являются частичные неответы, связанные с нежеланием респондента отвечать на вопрос, затруднением с ответом или другими причинами. Причину возникновения неответов видят как в способе проведения опроса или характеристиках респондентов, так и в характеристиках самой анкеты. В данной работе будет показано, как может прогнозироваться возникновение частичного неответа с помощью логистической регрессии с использованием данных опросов Европейского социального исследования [European Social Survey, ESS]. Были обучены модели предсказания отказов от ответа, отсутствия ответа и затруднений с ответом на основе текстовых характеристик вопросов с использованием частот слов и метрики важности слов TF-IDF. Все полученные модели сравнивались между собой с точки зрения качества получаемых с их помощью предсказаний, кроме того, наиболее важные слова из формулировок вопросов были разделены относительно того, повышают или понижают они вероятность появления неответа. В частности, было выявлено, что слова сензитивных тематик ведут к увеличению доли частичного неответа, а также некоторые слова-инструкции к самим вопросам.