• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Статья

Возможность работы с пропущенными данными при использовании CHAID: результаты статистического эксперимента

Рассматривается вариант работы с пропущенными данными (далее «пропуски») «как есть», т.е. предполагающий придание пропускам статуса самостоятельной категории изучаемой переменной. Этот вариант работы с пропусками кардинально отличается от других вариантов работы с ними: удалять те наблюдения, которые содержат пропуски, или заполнять пропуски. Единственный известный нам метод, позволяющий реализовать вариант работы с пропусками «как есть» – CHAID. CHAID относится к классу методов деревьев решений; сам по себе этот метод очень интересный и актуальный именно для исследователей, имеющих дело с категориальными переменными и нелинейными связями.

Мы не обнаружили в литературе ответ на вопрос, какие конкретно преимущества и ограничения имеет реализованный в CHAID вариант работы с пропусками «как есть» по сравнению с обозначенными альтернативными вариантами. Несмотря на это модели деревьев с пропусками нередко встречаются в эмпирических исследованиях. Чтобы начать дискуссию по этому поводу, мы провели несколько серий статистических экспериментов на модельных данных, организованных в три переменные категориального и интервального типа. Было эмпирически установлено, что в целом метод корректно распределяет пропуски по узлам, однако в большинстве случаев включение пропусков в анализ сопровождается изменениями в структуре дерева, а следовательно, существует риск получения неверных, ложных, ошибочных выводов. В работе также представлены рекомендации на предмет того, какие факторы следует учитывать при принятии решения о включении пропусков в модель «как есть».