• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • A
  • A
  • A
  • A
  • A
Обычная версия сайта
  • RU
  • EN
  • Национальный исследовательский университет «Высшая школа экономики»
  • Публикации ВШЭ
  • Статьи
  • Additive Regularization of Topic Models
  • RU
  • EN
Расширенный поиск
Высшая школа экономики
Национальный исследовательский университет
Приоритетные направления
  • бизнес-информатика
  • государственное и муниципальное управление
  • гуманитарные науки
  • инженерные науки
  • компьютерно-математическое
  • математика
  • менеджмент
  • право
  • социология
  • экономика
по году
  • 2027
  • 2026
  • 2025
  • 2024
  • 2023
  • 2022
  • 2021
  • 2020
  • 2019
  • 2018
  • 2017
  • 2016
  • 2015
  • 2014
  • 2013
  • 2012
  • 2011
  • 2010
  • 2009
  • 2008
  • 2007
  • 2006
  • 2005
  • 2004
  • 2003
  • 2002
  • 2001
  • 2000
  • 1999
  • 1998
  • 1997
  • 1996
  • 1995
  • 1994
  • 1993
  • 1992
  • 1991
  • 1990
  • 1989
  • 1988
  • 1987
  • 1986
  • 1985
  • 1984
  • 1983
  • 1982
  • 1981
  • 1980
  • 1979
  • 1978
  • 1977
  • 1976
  • 1975
  • 1974
  • 1973
  • 1972
  • 1971
  • 1970
  • 1969
  • 1968
  • 1967
  • 1966
  • 1965
  • 1964
  • 1963
  • 1958
  • еще
Тематика
Новости
17 июня 2026 г.
Биоинформатики НИУ ВШЭ обнаружили 20 опасных мутаций в гене, связанном с легочной артериальной гипертензией
Ученые НИУ ВШЭ совместно с коллегами из российских университетов выяснили, какие мутации в гене ACVRL1 опасны для пациентов с легочной артериальной гипертензией. Они смоделировали, как изменения в гене влияют на связывание АТФ с белком — процесс, от которого зависит передача сигналов, необходимых для работы сосудов. Оказалось, что 20 из 32 вариантов могут нарушать передачу сигнала и провоцировать болезнь. Результаты опубликованы в Journal of Structural Biology.
17 июня 2026 г.
Интеллектуальная робототехника: кадровый голод и масса возможностей
Пока на рынке мало кадров, способных заниматься разработкой интеллектуальных робототехнических систем. Между тем именно к этому идет робототехника. Как учат ее проектированию и каково будущее отрасли, в интервью IQ Media рассказал заведующий Проектно-учебной лабораторией робототехники НИУ ВШЭ Вадим Моргачев.
17 июня 2026 г.
Каким должно быть образование, чтобы готовить кадры для экономики будущего
Эти вопросы обсудят на форуме HR EXPO PRO ЛЮДЕЙ, который состоится 18-19 июня в Москве. В его работе примет участие ректор НИУ ВШЭ Никита Анисимов, федеральные министры, HR-директора компаний, ректоры вузов, эксперты. На форуме будет представлен стенд, посвященный программам ДПО НИУ ВШЭ.

 

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!

Публикации
  • Книги
  • Статьи
  • Главы в книгах
  • Препринты
  • Верификация публикаций
  • Расширенный поиск
  • Правила использования материалов
  • Наука в ВШЭ

?

Additive Regularization of Topic Models

Machine Learning. 2015. Vol. 101. No. 1. P. 303–323.
Воронцов К. В., Потапенко А. А.

Probabilistic topic modeling of text collections has been recently developed mainly within the framework of graphical models and Bayesian inference. In this paper we introduce an alternative semi-probabilistic approach, which we call additive regularization of topic models (ARTM). Instead of building a purely probabilistic generative model of text we regularize an ill-posed problem of stochastic matrix factorization by maximizing a weighted sum of the log-likelihood and additional criteria. This approach enables us to combine probabilistic assumptions with linguistic and problem-specific requirements in a single multi-objective topic model. In the theoretical part of the work we derive the regularized EM-algorithm and provide a pool of regularizers, which can be applied together in any combination. We show that many models previously developed within Bayesian framework can be inferred easier within ARTM and in some cases generalized. In the experimental part we show that a combination of sparsing, smoothing, and decorrelation improves several quality measures at once with almost no loss of the likelihood.

Приоритетные направления: компьютерно-математическое
Язык: английский
DOI
Текст на другом сайте
Ключевые слова: EM-algorithmlatent Dirichlet allocationprobabilistic topic modelregularization of ill-posed inverse problemsProbabilistic latent sematic analysis
Похожие публикации
ML-based Fast Simulation of FARICH Responses
Шипилов Ф. А., Barnyakov A., Ivanov A. и др., / Series Physics "arxiv.org". 2026.
Добавлено: 19 мая 2026 г.
Natural hazard database from Internet publications: text mining with a large language model
Деркачева А. А., Сакиркина М. А., Краев Г. Н. и др., /. 2026.
Добавлено: 28 апреля 2026 г.
Algorithmic overlaps as thermodynamic variables: from local to cluster Monte Carlo dynamics in critical phenomena
Пиле Я. Э., Deng Y., Щур Л. Н., / Series arXiv "math". 2026. No. 2604.10254.
Добавлено: 20 апреля 2026 г.
Using predefined vector systems to speed up neural network multimillion class classification
Gabdullin N., Андросов И. А., / Series Computer Science "arxiv.org". 2026.
Добавлено: 2 апреля 2026 г.
Iterative Ricci-Foster Curvature Flow with GMM-Based Edge Pruning: A Novel Approach to Community Detection
Сорокин К. С., Бекетов М. Е., Онучин А. и др., / arxiv.org. Серия cs.SI "Social and Information Networks ". 2025.
Обнаружение сообществ в сложных сетях — фундаментальная проблема, открытая для новых подходов в различных научных областях. Мы представляем новый метод обнаружения сообществ, основанный на потоке Риччи на графах. Наша техника итеративно обновляет веса ребер (их метрические длины) в соответствии с их (комбинаторной) версией кривизны Риччи Фостера, вычисленной на основе эффективного расстояния сопротивления между узлами. Известно, ...
Добавлено: 15 января 2026 г.
Implementing Transport Coding in OMNeT++ for Message Delay Reduction
Петрованов И. С., Сергеев А. В., / Series Computer Science "arxiv.org". 2025. No. 2512.18332.
Добавлено: 24 декабря 2025 г.
Hessian-based lightweight neural network for brain vessel segmentation on a minimal training dataset
Меньшиков И. А., Бернадотт А. К., Елфимов Н. С., / Series arXie "Statistical mechanics". 2025.
Добавлено: 1 декабря 2025 г.
Determining the boundary of dynamical chaos in the generalized Chirikov map via machine learning
Чернышов Д. П., Сатанин А. М., Щур Л. Н., / Series arXiv "math". 2025.
Добавлено: 21 ноября 2025 г.
Эффективный алгоритм торговли на фондовом рынке: ретроспективный анализ, основанный на данных по S&P-500.
Рубчинский А. А., Чубарова Д. А., / Series WP7 "Математические методы анализа решений в экономике, бизнесе и политике". 2025. No. WP7/2025/01.
Добавлено: 9 ноября 2025 г.
Processing and Analysis of Russian Strategic Planning Programs
Алексейчук Н. Н., Саркисян В. В., Emelyanov A. и др., , in: Digital Transformation and Global Society. Fourth International Conference, DTGS 2019, St. Petersburg, Russia, June 19–21, 2019, Revised Selected Papers.: Springer, 2019. P. 68–81.
Добавлено: 30 октября 2019 г.
Stable topic modeling for web science: Granulated LDA
Кольцов С. Н., Николенко С. И., Кольцова Е. Ю. и др., , in: WebSci 2016 - Proceedings of the 2016 ACM Web Science Conference.: Elsevier, 2016. P. 342–343.
Topic modeling is a powerful tool for analyzing large collections of user-generated web content, but it still suffers from problems with topic stability, which are especially important for social sciences. We evaluate stability for differenttopic models and propose a new model, granulated LDA,that samples short sequences of neighboring words at once. We show that gLDA ...
Добавлено: 24 октября 2016 г.
Convergence of an alternating maximization procedure
Andresen A., Спокойный В. Г., Journal of Machine Learning Research 2016 No. 17(63) P. 1–53
We derive two convergence results for a sequential alternating maximization procedure to approximate the maximizer of random functionals such as the realized log likelihood in MLE estimation. We manage to show that the sequence attains the same deviation properties as shown for the profile M-estimator by Andresen and Spokoiny (2013), that means a finite sample ...
Добавлено: 8 сентября 2016 г.
Reconstruction of prograde and retrograde Chandler excitation
Zotov L., Bizouard C., Journal of Inverse and Ill-posed problems 2015 Vol. 24 No. 1 P. 99–105
Добавлено: 30 сентября 2015 г.
Shape Perception
Савада Т., Li Y., Pizlo Z., , in: The Oxford Handbook of Computational and Mathematical Psychology.: Oxford University Press, 2015. P. 255–276.
Добавлено: 10 марта 2015 г.
Модификации EM-алгоритма для вероятностного тематического моделирования
Воронцов К. В., Потапенко А. А., Машинное обучение и анализ данных 2013 Т. 1 № 6 С. 657–686
Вероятностная тематическая модель (ВТМ) строит интерпретируемое представление коллекции текстовых документов,     описывая каждый документ дискретным распределением на множестве тем, каждую тему - дискретным распределением на множестве терминов. Рассматривается обобщённый EM-алгоритм с эвристиками сглаживания, сэмплирования, робастности и разреживания, позволяющий при различных сочетаниях этих эвристик получать как известные тематические модели PLSA, LDA, SWB, так и новые. ...
Добавлено: 19 февраля 2015 г.
Регуляризация, робастность и разреженность вероятностных тематических моделей
Воронцов К. В., Потапенко А. А., Компьютерные исследования и моделирование 2012 Т. 4 № 4 С. 693–706
Предлагается обобщённое семейство вероятностных тематических моделей коллекций тек- стовых документов, в котором эвристики регуляризации, сэмплирования, частого обновления параметров, робастности относительно шума и фона могут включаться независимо друг от дру- га в любых сочетаниях, порождая как известные модели PLSA, LDA, CVB0, SWB, так и новые. Показано, что робастная тематическая модель на основе PLSA, разделяющая термины на ...
Добавлено: 19 февраля 2015 г.
Советский учитель на фоне школьной повести: корпусная перспектива
Маслинский К. А., Детские чтения 2014 Т. 6 № 2 С. 112–126
Задача данной статьи — анализ дискурсивного фона, на котором существуют образы учителей в советской школьной повести послевоенного периода. Материалом послужил корпус текстов 37 авторов о школе и школьниках, написанных в 1940–1980 гг. общим объемом 1,8 млн слов. С помощью вероятностного тематического моделирования (LDA) был проведен втоматический анализ содержания эпизодов, в которых упоминаются ключевые слова директор, ...
Добавлено: 17 января 2015 г.
Multilevel classifiers based on a tree-structured set of Gaussian densities
N.A. Novikov, Pattern Recognition and Image Analysis 2014 Vol. 24 No. 3 P. 443–451
Добавлено: 16 января 2015 г.
Tutorial on Probabilistic Topic Modeling: Additive Regularization for Stochastic Matrix Factorization
Konstantin Vorontsov, Anna Potapenko, , in: Communications in Computer and Information ScienceVol. 436: Analysis of Images, Social Networks and Texts. Third International Conference, AIST 2014 Yekaterinburg, Russia, April 10–12, 2014 Revised Selected Papers.: Cham: Springer, 2014. P. 29–46.
Добавлено: 5 декабря 2014 г.
Application of Kalman Filter with alpha-stable distibution
Мозгунов П. А., , in: COMPSTAT 2014. 21st International Conference on Computational Statistics hosting the 5th IASC World Conference. Geneva, Switzerland, August 19–22, 2014. Book of Abstracts.: Geneva: [б.и.], 2014. P. 419–427.
In this paper we consider the behavior of Kalman Filter state estimates in the case of distribution with heavy tails .The simulated linear state space models with Gaussian measurement noises were used. Gaussian noises in state equation are replaced by components with alpha-stable distribution with different parameters alpha and beta. We consider the case when ...
Добавлено: 14 ноября 2014 г.
Модификации EM-алгоритма для вероятностного тематического моделирования
К.В. Воронцов, Потапенко А. А., Машинное обучение и анализ данных 2013 Т. 1 № 6 С. 657–686
Вероятностная тематическая модель (BTM) строит интерпретируемое представление коллекции текстовых документов, описывая каждый жокумент дискретным распределением на множестве тем, каждую тему - дискретным распределением на множестве терминов. Рассмотрен обобщенный EM-алгоритм с эвристиками сглаживания, сэмплирования, робастности и разрежевания, позволяющий при различных сочетаниях этих эвристик получать как известные тематические модели PLSA (probabilistic latent semantic analysis), LDA (latent Dirichlet ...
Добавлено: 6 мая 2014 г.
Interval Semi-supervised LDA: Classifying Needles in a Haystack
Bodrunova S., Кольцов С. Н., Кольцова Е. Ю. и др., , in: Proceedings of the 12th Mexican International Conference on Artificial Intelligence (MICAI 2013)* I: Advances in Artificial Intelligence and Its Applications.: Berlin: Springer, 2013. P. 265–274.
An important text mining problem is to fi nd, in a large collection of texts, documents related to speci c topics and then discern further structure among the found texts. This problem is especially important for social sciences, where the purpose is to nd the most representative documents for subsequent qualitative interpretation. To solve this problem, we ...
Добавлено: 19 марта 2014 г.
Proceedings of the 12th Mexican International Conference on Artificial Intelligence (MICAI 2013)
Berlin: Springer, 2013.
An important text mining problem is to find, in a large collection of texts, documents related to specific topics and then discern further structure among the found texts. This problem is especially important for social sciences, where the purpose is to find the most representative documents for subsequent qualitative interpretation. To solve this problem, we ...
Добавлено: 19 марта 2014 г.
  • О ВЫШКЕ
  • Цифры и факты
  • Руководство и структура
  • Устойчивое развитие в НИУ ВШЭ
  • Преподаватели и сотрудники
  • Корпуса и общежития
  • Закупки
  • Обращения граждан в НИУ ВШЭ
  • Фонд целевого капитала
  • Противодействие коррупции
  • Сведения о доходах, расходах, об имуществе и обязательствах имущественного характера
  • Сведения об образовательной организации
  • Людям с ограниченными возможностями здоровья
  • Единая платежная страница
  • Работа в Вышке
  • ОБРАЗОВАНИЕ
  • Лицей
  • Довузовская подготовка
  • Олимпиады
  • Прием в бакалавриат
  • Вышка+
  • Прием в магистратуру
  • Аспирантура
  • Дополнительное образование
  • Центр развития карьеры
  • Бизнес-инкубатор ВШЭ
  • Образовательные партнерства
  • Обратная связь и взаимодействие с получателями услуг
  • НАУКА
  • Научные подразделения
  • Исследовательские проекты
  • Мониторинги
  • Диссертационные советы
  • Защиты диссертаций
  • Академическое развитие
  • Конкурсы и гранты
  • Внешние научно-информационные ресурсы
  • РЕСУРСЫ
  • Библиотека
  • Издательский дом ВШЭ
  • Книжный магазин «БукВышка»
  • Типография
  • Медиацентр
  • Журналы ВШЭ
  • Публикации
  • http://www.minobrnauki.gov.ru/
    Министерство науки и высшего образования РФ
  • https://edu.gov.ru/
    Министерство просвещения РФ
  • http://www.edu.ru
    Федеральный портал «Российское образование»
  • https://elearning.hse.ru/mooc
    Массовые открытые онлайн-курсы
  • НИУ ВШЭ1993–2026
  • Адреса и контакты
  • Условия использования материалов
  • Политика конфиденциальности
  • Правила применения рекомендательных технологий в НИУ ВШЭ
  • Карта сайта
Редактору