• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Статья

Особенности работы с данными, характеризующими здоровье населения: заполнение пропусков в данных

Актуальность исследования. В ряде случаев базы данных показателей, использующихся как для исследований в области здравоохранения, так и для решения различных социально-экономических задач, содержат существенное количество пропущенных значений. Для повышения эффективности работы с такими базами возникает необходимость заполнения пропусков в данных. Эта необходимость обусловлена и потерей большого количества информации при простом игнорировании пропущенных значений, и даже получением в этом случае смещенных и несостоятельных результатов.

Цель исследования. Оценить применимость алгоритма MICE  (multivariate imputation by chained equations) для восстановления пропущенных значений в приложении к данным, релевантным задаче исследования зависимости предложения труда от показателей здоровья населения.

Методы исследования. Исследование проводилось на основе базы данных RLMS HSE. Для восстановления пропущенных значений был применен алгоритм MICE  (multivariate imputation by chained equations) с использованием метода марковских цепей Монте-Карло для получения апостериорных распределений переменных, содержащих пропуски.

Результаты исследования. Проведенный анализ показал наличие существенной доли пропусков в значениях выбранных переменных, включающих в себя как показатели здоровья, так и различные социально-экономические характеристики респондентов. В рамках данного исследования проведено восстановления пропущенных значений алгоритмом MICE. Полученные результаты показали возможность восстановления пропущенных значений переменных и их применимость для дальнейших исследований.

Область применения результатов. Путем применения алгоритмов заполнения пропусков, например, рассмотренного в данной статье алгоритма MICE, может быть решена проблема пропущенных значений и повышена эффективность использования показателей, представленных в различных базах данных.