?
Возможность работы с пропущенными данными при использовании CHAID: результаты статистического эксперимента
Рассматривается вариант работы с пропущенными данными (далее «пропуски») «как есть», т.е. предполагающий придание пропускам статуса самостоятельной категории изучаемой переменной. Этот вариант работы с пропусками кардинально отличается от других вариантов работы с ними: удалять те наблюдения, которые содержат пропуски, или заполнять пропуски. Единственный известный нам метод, позволяющий реализовать вариант работы с пропусками «как есть» – CHAID. CHAID относится к классу методов деревьев решений; сам по себе этот метод очень интересный и актуальный именно для исследователей, имеющих дело с категориальными переменными и нелинейными связями.
Мы не обнаружили в литературе ответ на вопрос, какие конкретно преимущества и ограничения имеет реализованный в CHAID вариант работы с пропусками «как есть» по сравнению с обозначенными альтернативными вариантами. Несмотря на это модели деревьев с пропусками нередко встречаются в эмпирических исследованиях. Чтобы начать дискуссию по этому поводу, мы провели несколько серий статистических экспериментов на модельных данных, организованных в три переменные категориального и интервального типа. Было эмпирически установлено, что в целом метод корректно распределяет пропуски по узлам, однако в большинстве случаев включение пропусков в анализ сопровождается изменениями в структуре дерева, а следовательно, существует риск получения неверных, ложных, ошибочных выводов. В работе также представлены рекомендации на предмет того, какие факторы следует учитывать при принятии решения о включении пропусков в модель «как есть».