?
Модификации EM-алгоритма для вероятностного тематического моделирования
Вероятностная тематическая модель (BTM) строит интерпретируемое представление коллекции текстовых документов, описывая каждый жокумент дискретным распределением на множестве тем, каждую тему - дискретным распределением на множестве терминов. Рассмотрен обобщенный EM-алгоритм с эвристиками сглаживания, сэмплирования, робастности и разрежевания, позволяющий при различных сочетаниях этих эвристик получать как известные тематические модели PLSA (probabilistic latent semantic analysis), LDA (latent Dirichlet allocation), SWB (special words with background), так и новые. Предлагается упрощенный робастный алгоритм, который не требует ни дополнительных вычислительных затрат, ни хранения матрицы параметров шума, и хорошо сочетается с эвристикой разреживания. В экспериментах на двух коллекциях научных публикаций, англоязычной и русскоязычной, подбираются оптимальные сочетания стратегий разреживания и других эвристик. Показывается, что робастная модель без сглаживания позволяет разреживать искомые распределения на 99% без ухудшения качества (перплексии) модели.