?
Tutorial on Probabilistic Topic Modeling: Additive Regularization for Stochastic Matrix Factorization
P. 29–46.
Konstantin Vorontsov, Anna Potapenko
В книге
Vol. 436: Analysis of Images, Social Networks and Texts. Third International Conference, AIST 2014 Yekaterinburg, Russia, April 10–12, 2014 Revised Selected Papers. , Cham: Springer, 2014.
Кольцов С. Н., Игнатенко В. В., , in: Intelligent Computing: SAI 2020: Volume 1* 1. Vol. 1228.: Switzerland: Springer, 2020. P. 234–247.
Добавлено: 11 ноября 2019 г.
N. A. Chirkova, K. V. Vorontsov, Journal of machine learning and data analysis 2016 Vol. 2 No. 2 P. 187–200
Добавлено: 19 октября 2017 г.
K. V. Vorontsov, Journal of machine learning and data analysis 2016 Vol. 2 No. 2 P. 187–200
Добавлено: 19 октября 2017 г.
Кольцов С. Н., Николенко С. И., Кольцова Е. Ю. и др., , in: WebSci 2016 - Proceedings of the 2016 ACM Web Science Conference.: Elsevier, 2016. P. 342–343.
Topic modeling is a powerful tool for analyzing large collections of user-generated web content, but it still suffers from problems with topic stability, which are especially important for social sciences. We evaluate stability for differenttopic models and propose a new model, granulated LDA,that samples short sequences of neighboring words at once. We show that gLDA ...
Добавлено: 24 октября 2016 г.
Andresen A., Спокойный В. Г., Journal of Machine Learning Research 2016 No. 17(63) P. 1–53
We derive two convergence results for a sequential alternating maximization procedure to approximate the maximizer of random functionals such as the realized log likelihood in MLE estimation. We manage to show that the sequence attains the same deviation properties as shown for the profile M-estimator by Andresen and Spokoiny (2013), that means a finite sample ...
Добавлено: 8 сентября 2016 г.
Нокель М. А., Лукашевич Н. В., Вычислительные методы и программирование 2015 Т. 16 № 2 С. 215–234
Представлены результаты экспериментов по добавлению биграмм в тематические модели и учету сходства между ними и униграммами. Предложен новый алгоритм PLSA-SIM, являю- щийся модификацией алгоритма построения тематических моделей PLSA (Probabilistic Latent Semantic Analysis). Предложенный алгоритм позволяет добавлять биграммы и учитывать сход- ство между ними и униграммными компонентами. Исследована возможность применения ас- социативных мер для выбора и ...
Добавлено: 15 марта 2016 г.
Нокель М. А., Вестник Воронежского государственного университета. Серия: Системный анализ и информационные технологии 2014 № 4 С. 89–97
В статье представлены результаты экспериментов по добавлению сходства между униграммами и биграммами в тематические модели. Вначале изучается возможность применения ассоциативных мер для выбора и последующего включения биграмм в тематические модели. Затем предлагается модификация оригинального алгоритма PLSA, учитывающая похожие униграммы и биграммы, начинающиеся с одних и тех же букв. И в конце статьи предлагается новый итеративный ...
Добавлено: 15 марта 2016 г.
Zotov L., Bizouard C., Journal of Inverse and Ill-posed problems 2015 Vol. 24 No. 1 P. 99–105
Добавлено: 30 сентября 2015 г.
Савада Т., Li Y., Pizlo Z., , in: The Oxford Handbook of Computational and Mathematical Psychology.: Oxford University Press, 2015. P. 255–276.
Добавлено: 10 марта 2015 г.
Воронцов К. В., Потапенко А. А., Machine Learning 2015 Vol. 101 No. 1 P. 303–323
Probabilistic topic modeling of text collections has been recently developed mainly within the framework of graphical models and Bayesian inference. In this paper we introduce an alternative semi-probabilistic approach, which we call additive regularization of topic models (ARTM). Instead of building a purely probabilistic generative model of text we regularize an ill-posed problem of stochastic matrix factorization ...
Добавлено: 19 февраля 2015 г.
Воронцов К. В., Потапенко А. А., Машинное обучение и анализ данных 2013 Т. 1 № 6 С. 657–686
Вероятностная тематическая модель (ВТМ) строит интерпретируемое представление коллекции текстовых документов, описывая каждый документ дискретным распределением на множестве тем, каждую тему - дискретным распределением на множестве терминов. Рассматривается обобщённый EM-алгоритм с эвристиками сглаживания, сэмплирования, робастности и разреживания, позволяющий при различных сочетаниях этих эвристик получать как известные тематические модели PLSA, LDA, SWB, так и новые. ...
Добавлено: 19 февраля 2015 г.
Воронцов К. В., Потапенко А. А., Компьютерные исследования и моделирование 2012 Т. 4 № 4 С. 693–706
Предлагается обобщённое семейство вероятностных тематических моделей коллекций тек- стовых документов, в котором эвристики регуляризации, сэмплирования, частого обновления параметров, робастности относительно шума и фона могут включаться независимо друг от дру- га в любых сочетаниях, порождая как известные модели PLSA, LDA, CVB0, SWB, так и новые. Показано, что робастная тематическая модель на основе PLSA, разделяющая термины на ...
Добавлено: 19 февраля 2015 г.
Маслинский К. А., Детские чтения 2014 Т. 6 № 2 С. 112–126
Задача данной статьи — анализ дискурсивного фона, на котором существуют образы учителей в советской школьной повести послевоенного периода. Материалом послужил корпус текстов 37 авторов о школе и школьниках, написанных в 1940–1980 гг. общим объемом 1,8 млн слов. С помощью вероятностного тематического моделирования (LDA) был проведен втоматический анализ содержания эпизодов, в которых упоминаются ключевые слова директор, ...
Добавлено: 17 января 2015 г.