?
Опыт классификации социального положения репрессированных в СССР с помощью метода опорных векторов
В статье рассматриваются различные подходы к классификации занятий в исторических исследованиях на примере базы данных «Жертвы политического террора в СССР», разработанной историко-просветительским обществом «Мемориал» (признано иностранным агентом и ликвидировано по решению суда). Необходимо обобщить разрозненные данные о профессии и занятиях репрессированных. В статье дается краткий обзор методов, которыми ранее уже решалась эта задача: от ручного отнесения тех или иных занятий и профессий репрессированных к разным общественным группам, которые существовали в 1930-х годах в СССР, до полностью автоматической кластеризации. Далее предлагается новый способ: применить для классификации машинное обучение «с учителем»: использовать уже разделенные в рамках предыдущих исследований на группы записи для обучения алгоритма и последующей автоматической разметки. Наилучшим из опробованных способов оказался метод опорных векторов, который на тестовой выборке показал точность 95%. Рассматриваются преимущества и ограничения подобной классификации, главным из которых является то, что некоторые общественные группы определяются систематически более плохо. Тем не менее, применение этой методики позволило крайне быстро разметить 350 тыс. новых записей из базы данных. Разметка на основе обработанных историком «тренировочных» данных представляется перспективным методологическим направлением для исторической информатики.