?
Классификация демографических последовательностей на основе узорных структур
В работе представлены результаты первых экспериментов применения узорных структур на последовательностях к анализу демографических данных в России. Использованы данные об 11-ти поколениях с 1930 по 1984 для панели из трех волн, имевших место в 2004, 2007 и 2011. Основная задача состояла в поиске таких закономерностей, которые являются (замкнутыми) частыми префиксами без ``разрывов''. Эти ограничения -- естественное требование демеографов, необходимое для изучения первых событий на этапе взросления. Для решения этой задачи использованы узорные структуры неразрывных последовательностей и модифицированные FP-деревья. Наилучшие результаты в терминах TPR-FPR были получены при больших значений параметра роста (с некоторым числом отказов от классификации).
Статья подготовлена в ходе проведения исследования № 16-05-0011 «Разработка и апробация методик анализа демографических последовательностей» в рамках Программы «Научный фонд Национального исследовательского университета «Высшая школа экономики» (НИУ ВШЭ)» в 2016 г. и с использованием средств субсидии на государственную поддержку ведущих университетов Российской Федерации в целях повышения их конкурентоспособности среди ведущих мировых научно-образовательных центров, выделенной НИУ ВШЭ.