Additive Regularization of Topic Models

K. V. Vorontsov; A. Potapenko

doi:10.1007/s10994-014-5476-6

Публикации

?

Additive Regularization of Topic Models

Machine Learning. 2015. Vol. 101. No. 1. P. 303–323.

Воронцов К. В., Потапенко А. А.

Probabilistic topic modeling of text collections has been recently developed mainly within the framework of graphical models and Bayesian inference. In this paper we introduce an alternative semi-probabilistic approach, which we call additive regularization of topic models (ARTM). Instead of building a purely probabilistic generative model of text we regularize an ill-posed problem of stochastic matrix factorization by maximizing a weighted sum of the log-likelihood and additional criteria. This approach enables us to combine probabilistic assumptions with linguistic and problem-specific requirements in a single multi-objective topic model. In the theoretical part of the work we derive the regularized EM-algorithm and provide a pool of regularizers, which can be applied together in any combination. We show that many models previously developed within Bayesian framework can be inferred easier within ARTM and in some cases generalized. In the experimental part we show that a combination of sparsing, smoothing, and decorrelation improves several quality measures at once with almost no loss of the likelihood.

Приоритетные направления: компьютерно-математическое

Язык: английский

DOI

Текст на другом сайте

Ключевые слова: EM-algorithm latent Dirichlet allocation probabilistic topic model regularization of ill-posed inverse problems Probabilistic latent sematic analysis

Natural hazard database from Internet publications: text mining with a large language model

Деркачева А. А., Сакиркина М. А., Краев Г. Н. и др., /. 2026.

Добавлено: 28 апреля 2026 г.

Ising models on the hydrogen peroxide and other lattices

Qin X., Deng Y., Щур Л. Н. и др., / Series arXiv "math". 2026. No. 2603.02962.

Добавлено: 20 апреля 2026 г.

Algorithmic overlaps as thermodynamic variables: from local to cluster Monte Carlo dynamics in critical phenomena

Пиле Я. Э., Deng Y., Щур Л. Н., / Series arXiv "math". 2026. No. 2604.10254.

Добавлено: 20 апреля 2026 г.

Using predefined vector systems to speed up neural network multimillion class classification

Gabdullin N., Андросов И. А., / Series Computer Science "arxiv.org". 2026.

Добавлено: 2 апреля 2026 г.

Iterative Ricci-Foster Curvature Flow with GMM-Based Edge Pruning: A Novel Approach to Community Detection

Сорокин К. С., Бекетов М. Е., Онучин А. и др., / arxiv.org. Серия cs.SI "Social and Information Networks ". 2025.

Обнаружение сообществ в сложных сетях — фундаментальная проблема, открытая для новых подходов в различных научных областях. Мы представляем новый метод обнаружения сообществ, основанный на потоке Риччи на графах. Наша техника итеративно обновляет веса ребер (их метрические длины) в соответствии с их (комбинаторной) версией кривизны Риччи Фостера, вычисленной на основе эффективного расстояния сопротивления между узлами. Известно, ...

Добавлено: 15 января 2026 г.

Implementing Transport Coding in OMNeT++ for Message Delay Reduction

Петрованов И. С., Сергеев А. В., / Series Computer Science "arxiv.org". 2025. No. 2512.18332.

Добавлено: 24 декабря 2025 г.

Hessian-based lightweight neural network for brain vessel segmentation on a minimal training dataset

Меньшиков И. А., Бернадотт А. К., Елфимов Н. С., / Series arXie "Statistical mechanics". 2025.

Добавлено: 1 декабря 2025 г.

Determining the boundary of dynamical chaos in the generalized Chirikov map via machine learning

Чернышов Д. П., Сатанин А. М., Щур Л. Н., / Series arXiv "math". 2025.

Добавлено: 21 ноября 2025 г.

Эффективный алгоритм торговли на фондовом рынке: ретроспективный анализ, основанный на данных по S&P-500.

Рубчинский А. А., Чубарова Д. А., / Series WP7 "Математические методы анализа решений в экономике, бизнесе и политике". 2025. No. WP7/2025/01.

Добавлено: 9 ноября 2025 г.

Diffusion on language model embeddings for protein sequence generation

Мещанинов В. П., Strashnov, P., Shevtsov A. и др., / Cornell University. Серия CoRR, arXiv:2403.03726 "Computing Research Repository,". 2025.

Дизайн белков требует глубокого понимания присущей сложности «белкового вселенной». Хотя многие работы ориентируются на условную генерацию или сосредоточены на отдельных семействах белков, базовая задача безусловной генерации остаётся недостаточно изученной и недооценённой. В этой работе мы исследуем именно этот ключевой аспект и представляем DiMA — модель, которая использует непрерывную диффузию по эмбеддингам, полученным из языковой модели для белков ESM-2, ...

Добавлено: 5 октября 2025 г.

Smoothie: Smoothing Diffusion on Token Embeddings for Text Generation

Шабалин А. М., Мещанинов В. П., Vetrov D., / Series cs.CL, arXiv:2505.18853 "Computation and Language". 2025.

Диффузионные модели достигли передовых результатов в генерации изображений, аудио и видео, однако их адаптация к тексту остаётся сложной из-за его дискретной природы. Ранее подходы либо применяют гауссовскую диффузию в непрерывных латентных пространствах, что наследует семантическую структуру, но затрудняет декодирование токенов, либо работают в пространстве категориального симплекса, что учитывает дискретность, но игнорирует семантические связи между токенами. ...

Добавлено: 5 октября 2025 г.

A Feature Engineering Framework for Computer Vision Based on Topological Data Analysis

Абрамов А. С., Чернышев В. Л., Михайлец Е. В. и др., / Series Social Science Research Network "Social Science Research Network". 2025.

Добавлено: 23 сентября 2025 г.

On the construction of frieze patterns from partitions of convex polygons by nonintersecting diagonals

Кочетков Ю. Ю., / Series arXiv.org e-print archive "arXiv.math". 2025. No. 07600.

Добавлено: 17 сентября 2025 г.

On one property of Catalan numbers

Кочетков Ю. Ю., / Series arXiv.org e-print archive "arXiv.math". 2025. No. 20584.

Добавлено: 9 сентября 2025 г.

Processing and Analysis of Russian Strategic Planning Programs

Алексейчук Н. Н., Саркисян В. В., Emelyanov A. и др., , in: Digital Transformation and Global Society. Fourth International Conference, DTGS 2019, St. Petersburg, Russia, June 19–21, 2019, Revised Selected Papers.: Springer, 2019. P. 68–81.

Добавлено: 30 октября 2019 г.

Stable topic modeling for web science: Granulated LDA

Кольцов С. Н., Николенко С. И., Кольцова Е. Ю. и др., , in: WebSci 2016 - Proceedings of the 2016 ACM Web Science Conference.: Elsevier, 2016. P. 342–343.

Topic modeling is a powerful tool for analyzing large collections of user-generated web content, but it still suffers from problems with topic stability, which are especially important for social sciences. We evaluate stability for differenttopic models and propose a new model, granulated LDA,that samples short sequences of neighboring words at once. We show that gLDA ...

Добавлено: 24 октября 2016 г.

Convergence of an alternating maximization procedure

Andresen A., Спокойный В. Г., Journal of Machine Learning Research 2016 No. 17(63) P. 1–53

We derive two convergence results for a sequential alternating maximization procedure to approximate the maximizer of random functionals such as the realized log likelihood in MLE estimation. We manage to show that the sequence attains the same deviation properties as shown for the profile M-estimator by Andresen and Spokoiny (2013), that means a finite sample ...

Добавлено: 8 сентября 2016 г.

Reconstruction of prograde and retrograde Chandler excitation

Zotov L., Bizouard C., Journal of Inverse and Ill-posed problems 2015 Vol. 24 No. 1 P. 99–105

Добавлено: 30 сентября 2015 г.

Shape Perception

Савада Т., Li Y., Pizlo Z., , in: The Oxford Handbook of Computational and Mathematical Psychology.: Oxford University Press, 2015. P. 255–276.

Добавлено: 10 марта 2015 г.

Модификации EM-алгоритма для вероятностного тематического моделирования

Воронцов К. В., Потапенко А. А., Машинное обучение и анализ данных 2013 Т. 1 № 6 С. 657–686

Вероятностная тематическая модель (ВТМ) строит интерпретируемое представление коллекции текстовых документов, описывая каждый документ дискретным распределением на множестве тем, каждую тему - дискретным распределением на множестве терминов. Рассматривается обобщённый EM-алгоритм с эвристиками сглаживания, сэмплирования, робастности и разреживания, позволяющий при различных сочетаниях этих эвристик получать как известные тематические модели PLSA, LDA, SWB, так и новые. ...

Добавлено: 19 февраля 2015 г.

Регуляризация, робастность и разреженность вероятностных тематических моделей

Воронцов К. В., Потапенко А. А., Компьютерные исследования и моделирование 2012 Т. 4 № 4 С. 693–706

Предлагается обобщённое семейство вероятностных тематических моделей коллекций тек- стовых документов, в котором эвристики регуляризации, сэмплирования, частого обновления параметров, робастности относительно шума и фона могут включаться независимо друг от дру- га в любых сочетаниях, порождая как известные модели PLSA, LDA, CVB0, SWB, так и новые. Показано, что робастная тематическая модель на основе PLSA, разделяющая термины на ...

Добавлено: 19 февраля 2015 г.

Советский учитель на фоне школьной повести: корпусная перспектива

Маслинский К. А., Детские чтения 2014 Т. 6 № 2 С. 112–126

Задача данной статьи — анализ дискурсивного фона, на котором существуют образы учителей в советской школьной повести послевоенного периода. Материалом послужил корпус текстов 37 авторов о школе и школьниках, написанных в 1940–1980 гг. общим объемом 1,8 млн слов. С помощью вероятностного тематического моделирования (LDA) был проведен втоматический анализ содержания эпизодов, в которых упоминаются ключевые слова директор, ...

Добавлено: 17 января 2015 г.

Multilevel classifiers based on a tree-structured set of Gaussian densities

N.A. Novikov, Pattern Recognition and Image Analysis 2014 Vol. 24 No. 3 P. 443–451

Добавлено: 16 января 2015 г.

Tutorial on Probabilistic Topic Modeling: Additive Regularization for Stochastic Matrix Factorization

Konstantin Vorontsov, Anna Potapenko, , in: Communications in Computer and Information ScienceVol. 436: Analysis of Images, Social Networks and Texts. Third International Conference, AIST 2014 Yekaterinburg, Russia, April 10–12, 2014 Revised Selected Papers.: Cham: Springer, 2014. P. 29–46.

Добавлено: 5 декабря 2014 г.