• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Статья

Имеет ли метод индикаторной переменной преимущества перед анализом полных наблюдений при обработке пропусков в категориальных регрессорах?

Если в категориальном регрессоре есть пропущенные значения, то что лучше применить: анализ полных наблюдений или метод индикаторной переменной? Суть первого подхода состоит в исключении из анализа (в нашем случае – линейного регрессионного) наблюдений, содержащих пропуски хотя бы по одной из изучаемых переменных. Этот подход применяется по умолчанию во многих популярных приложениях, и вопреки сложившимся представлениям о его ограниченности, всё больше исследований подтверждают его универсальность – даже в случае неслучайных пропусков. Метод индикаторной переменной, при котором пропущенные значения заменяются на валидные, а в пару исходной переменной создаётся дополнительная индикаторная, выступает более новой альтернативой, которая, в отличие от первого подхода, позволяет использовать информацию из всех наблюдений и при этом, гипотетически, также не приводит к искажению изучаемых статистических параметров. Посредством статистического эксперимента на симулированных данных, контролируя механизм порождения пропусков, их долю и спецификацию регрессионной модели, мы сравниваем полученные на основе каждого из подходов статистические оценки регрессионных коэффициентов на предмет их искажений: смещения и неэффективности. Согласно результатам, оба подхода не приводят к заметному смещению, однако метод индикаторной переменной приводит к менее эффективной оценке.