?
Тематическое моделирование для коротких текстов: сравнительный анализ
Устойчивый рост популярности социальных сетей в качестве средства коммуникации актуализирует методологические вопросы, связанные с особенностями обработки коротких текстов, обладающих меньшим семантическим контекстом, чем крупные тексты, широко используемые для обучения и тестирования моделей машинного обучения для работы с текстовыми данными. Тематическое моделирование – метод машинного обучения «без учителя», нацеленный на агрегацию текстов в тематические кластеры – имеет множество академических и практических приложений в случаях отсутствия подробной разметки текстовых данных. Однако, качество работы алгоритмов тематического моделирования может ограничиваться полнотой семантического контекста, необходимого для качественного числового представления единицы текста. В этой статье рассматриваются 3 разных подхода к тематическому моделированию: классический LDА, обогащенный предобученными словарными эмбеддингами, тематическое моделирование на базе трансформерной модели BERT и сетевой подход к задаче тематического моделирования с использованием стохастических блокмоделей. Сравнивается качество работы указанных алгоритмов на наборе русскоязычных комментариев в сети TikTok и проводится формальная оценка скорости и когерентности результирующих тем.