• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Глава

Регуляризация вероятностных тематических моделей для повышения интерпретируемости и определения числа тем

С. 676-687.
Воронцов К. В., Потапенко А. А.

Вероятностное тематическое моделирование — это современный инструмент статистического анализа текстов, предназначенный для выявления тематики коллекций документов. Задача построения тематической модели имеет бесконечно много решений, что приводит к неустойчивости и плохой интерпретируемости тем. Для решения этих проблем применяется новый многокритериальный подход — аддитивная регуляризация тематических моделей (ARTM). Вводятся четыре регуляризатора: для выделения слов общей лексики в отдельные фоновые темы, для повышения разреженности и различности основных предметных тем, для удаления незначимых тем. В экспериментах показывается, что комбинирование этих регуляризаторов улучшает разреженность, когерентность, чистоту и контрастность тем без значимого ухудшения правдоподобия модели.