Tutorial on Probabilistic Topic Modeling: Additive Regularization for Stochastic Matrix Factorization

Konstantin Vorontsov; Anna Potapenko

Публикации

?

Tutorial on Probabilistic Topic Modeling: Additive Regularization for Stochastic Matrix Factorization

P. 29–46.

Konstantin Vorontsov, Anna Potapenko

Язык: английский

Полный текст

Текст на другом сайте

Ключевые слова: EM-algorithm latent Dirichlet allocation тематические модели аддитивная регуляризация probabilistic topic modeling regularization of ill-posed inverse problems stochastic matrix factorization Probabilistic latent sematic analysis

В книге

Communications in Computer and Information Science

Vol. 436: Analysis of Images, Social Networks and Texts. Third International Conference, AIST 2014 Yekaterinburg, Russia, April 10–12, 2014 Revised Selected Papers. , Cham: Springer, 2014.

Renormalization approach to the task of determining the number of topics in topic modeling

Кольцов С. Н., Игнатенко В. В., , in: Intelligent Computing: SAI 2020: Volume 1* 1. Vol. 1228.: Switzerland: Springer, 2020. P. 234–247.

Добавлено: 11 ноября 2019 г.

Additive Regularization for Hierarchical Multimodal Topic Modeling

N. A. Chirkova, K. V. Vorontsov, Journal of machine learning and data analysis 2016 Vol. 2 No. 2 P. 187–200

Добавлено: 19 октября 2017 г.

Additive Regularization for Hierarchical Multimodal Topic Modeling

K. V. Vorontsov, Journal of machine learning and data analysis 2016 Vol. 2 No. 2 P. 187–200

Добавлено: 19 октября 2017 г.

Stable topic modeling for web science: Granulated LDA

Кольцов С. Н., Николенко С. И., Кольцова Е. Ю. и др., , in: WebSci 2016 - Proceedings of the 2016 ACM Web Science Conference.: Elsevier, 2016. P. 342–343.

Topic modeling is a powerful tool for analyzing large collections of user-generated web content, but it still suffers from problems with topic stability, which are especially important for social sciences. We evaluate stability for differenttopic models and propose a new model, granulated LDA,that samples short sequences of neighboring words at once. We show that gLDA ...

Добавлено: 24 октября 2016 г.

Convergence of an alternating maximization procedure

Andresen A., Спокойный В. Г., Journal of Machine Learning Research 2016 No. 17(63) P. 1–53

We derive two convergence results for a sequential alternating maximization procedure to approximate the maximizer of random functionals such as the realized log likelihood in MLE estimation. We manage to show that the sequence attains the same deviation properties as shown for the profile M-estimator by Andresen and Spokoiny (2013), that means a finite sample ...

Добавлено: 8 сентября 2016 г.

Тематические модели: добавление биграмм и учет сходства между униграммами и биграммами

Нокель М. А., Лукашевич Н. В., Вычислительные методы и программирование 2015 Т. 16 № 2 С. 215–234

Представлены результаты экспериментов по добавлению биграмм в тематические модели и учету сходства между ними и униграммами. Предложен новый алгоритм PLSA-SIM, являю- щийся модификацией алгоритма построения тематических моделей PLSA (Probabilistic Latent Semantic Analysis). Предложенный алгоритм позволяет добавлять биграммы и учитывать сход- ство между ними и униграммными компонентами. Исследована возможность применения ас- социативных мер для выбора и ...

Добавлено: 15 марта 2016 г.

Метод учёта структуры биграмм в тематических моделях

Нокель М. А., Вестник Воронежского государственного университета. Серия: Системный анализ и информационные технологии 2014 № 4 С. 89–97

В статье представлены результаты экспериментов по добавлению сходства между униграммами и биграммами в тематические модели. Вначале изучается возможность применения ассоциативных мер для выбора и последующего включения биграмм в тематические модели. Затем предлагается модификация оригинального алгоритма PLSA, учитывающая похожие униграммы и биграммы, начинающиеся с одних и тех же букв. И в конце статьи предлагается новый итеративный ...

Добавлено: 15 марта 2016 г.

Reconstruction of prograde and retrograde Chandler excitation

Zotov L., Bizouard C., Journal of Inverse and Ill-posed problems 2015 Vol. 24 No. 1 P. 99–105

Добавлено: 30 сентября 2015 г.

Shape Perception

Савада Т., Li Y., Pizlo Z., , in: The Oxford Handbook of Computational and Mathematical Psychology.: Oxford University Press, 2015. P. 255–276.

Добавлено: 10 марта 2015 г.

Additive Regularization of Topic Models

Воронцов К. В., Потапенко А. А., Machine Learning 2015 Vol. 101 No. 1 P. 303–323

Probabilistic topic modeling of text collections has been recently developed mainly within the framework of graphical models and Bayesian inference. In this paper we introduce an alternative semi-probabilistic approach, which we call additive regularization of topic models (ARTM). Instead of building a purely probabilistic generative model of text we regularize an ill-posed problem of stochastic matrix factorization ...

Добавлено: 19 февраля 2015 г.

Модификации EM-алгоритма для вероятностного тематического моделирования

Воронцов К. В., Потапенко А. А., Машинное обучение и анализ данных 2013 Т. 1 № 6 С. 657–686

Вероятностная тематическая модель (ВТМ) строит интерпретируемое представление коллекции текстовых документов, описывая каждый документ дискретным распределением на множестве тем, каждую тему - дискретным распределением на множестве терминов. Рассматривается обобщённый EM-алгоритм с эвристиками сглаживания, сэмплирования, робастности и разреживания, позволяющий при различных сочетаниях этих эвристик получать как известные тематические модели PLSA, LDA, SWB, так и новые. ...

Добавлено: 19 февраля 2015 г.

Регуляризация, робастность и разреженность вероятностных тематических моделей

Воронцов К. В., Потапенко А. А., Компьютерные исследования и моделирование 2012 Т. 4 № 4 С. 693–706

Предлагается обобщённое семейство вероятностных тематических моделей коллекций тек- стовых документов, в котором эвристики регуляризации, сэмплирования, частого обновления параметров, робастности относительно шума и фона могут включаться независимо друг от дру- га в любых сочетаниях, порождая как известные модели PLSA, LDA, CVB0, SWB, так и новые. Показано, что робастная тематическая модель на основе PLSA, разделяющая термины на ...

Добавлено: 19 февраля 2015 г.

Советский учитель на фоне школьной повести: корпусная перспектива

Маслинский К. А., Детские чтения 2014 Т. 6 № 2 С. 112–126

Задача данной статьи — анализ дискурсивного фона, на котором существуют образы учителей в советской школьной повести послевоенного периода. Материалом послужил корпус текстов 37 авторов о школе и школьниках, написанных в 1940–1980 гг. общим объемом 1,8 млн слов. С помощью вероятностного тематического моделирования (LDA) был проведен втоматический анализ содержания эпизодов, в которых упоминаются ключевые слова директор, ...

Добавлено: 17 января 2015 г.