• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • A
  • A
  • A
  • A
  • A
Обычная версия сайта
  • RU
  • EN
  • Национальный исследовательский университет «Высшая школа экономики»
  • Публикации ВШЭ
  • Статьи
  • Additive Regularization of Topic Models
  • RU
  • EN
Расширенный поиск
Высшая школа экономики
Национальный исследовательский университет
Приоритетные направления
  • бизнес-информатика
  • государственное и муниципальное управление
  • гуманитарные науки
  • инженерные науки
  • компьютерно-математическое
  • математика
  • менеджмент
  • право
  • социология
  • экономика
по году
  • 2027
  • 2026
  • 2025
  • 2024
  • 2023
  • 2022
  • 2021
  • 2020
  • 2019
  • 2018
  • 2017
  • 2016
  • 2015
  • 2014
  • 2013
  • 2012
  • 2011
  • 2010
  • 2009
  • 2008
  • 2007
  • 2006
  • 2005
  • 2004
  • 2003
  • 2002
  • 2001
  • 2000
  • 1999
  • 1998
  • 1997
  • 1996
  • 1995
  • 1994
  • 1993
  • 1992
  • 1991
  • 1990
  • 1989
  • 1988
  • 1987
  • 1986
  • 1985
  • 1984
  • 1983
  • 1982
  • 1981
  • 1980
  • 1979
  • 1978
  • 1977
  • 1976
  • 1975
  • 1974
  • 1973
  • 1972
  • 1971
  • 1970
  • 1969
  • 1968
  • 1967
  • 1966
  • 1965
  • 1964
  • 1963
  • 1958
  • еще
Тематика
Новости
19 мая 2026 г.
Физики НИУ ВШЭ выяснили, что происходит внутри устойчивого вихря
В атмосфере и в океане часто наблюдаются крупные вихри с характерными спиральными рукавами. Физики из НИУ ВШЭ объяснили, как они формируются и почему сохраняют свою структуру. Оказалось, что скорости в точках, расположенных вдоль одной дуги вихря, остаются связанными даже на больших расстояниях. При этом в направлении от центра вихря эта связь быстро ослабевает. Такие различия помогают объяснить образование рукавов и могут улучшить модели атмосферных и океанических течений. Результаты опубликованы в Physical Review Fluids.
18 мая 2026 г.
В Вышке прошла XXX юбилейная научно-техническая конференция имени Е.В. Арменского
Организатором научного события выступает Московский институт электроники и математики им. А.Н. Тихонова ВШЭ. В этом году главный инженерный студенческий форум проходил 30-й раз и собрал рекордное число участников. Студенты, аспиранты и молодые специалисты из 50 вузов и организаций России представили научно-исследовательские доклады в ИТ-области. Отдельная секция была посвящена научно-исследовательским работам школьников.
15 мая 2026 г.
В НИУ ВШЭ разрабатывают нейросеть для сферы науки и инноваций
Исследователи НИУ ВШЭ учат большие языковые модели понимать русскоязычную научную терминологию, увеличивая при этом их энергоэффективность. Адаптированная модель работает в 2,7 раза быстрее и требует на 73% меньше памяти, чем исходная открытая модель, что позволяет запускать ее на более доступном оборудовании. Программа прошла государственную регистрацию.

 

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!

Публикации
  • Книги
  • Статьи
  • Главы в книгах
  • Препринты
  • Верификация публикаций
  • Расширенный поиск
  • Правила использования материалов
  • Наука в ВШЭ

?

Additive Regularization of Topic Models

Machine Learning. 2015. Vol. 101. No. 1. P. 303–323.
Воронцов К. В., Потапенко А. А.

Probabilistic topic modeling of text collections has been recently developed mainly within the framework of graphical models and Bayesian inference. In this paper we introduce an alternative semi-probabilistic approach, which we call additive regularization of topic models (ARTM). Instead of building a purely probabilistic generative model of text we regularize an ill-posed problem of stochastic matrix factorization by maximizing a weighted sum of the log-likelihood and additional criteria. This approach enables us to combine probabilistic assumptions with linguistic and problem-specific requirements in a single multi-objective topic model. In the theoretical part of the work we derive the regularized EM-algorithm and provide a pool of regularizers, which can be applied together in any combination. We show that many models previously developed within Bayesian framework can be inferred easier within ARTM and in some cases generalized. In the experimental part we show that a combination of sparsing, smoothing, and decorrelation improves several quality measures at once with almost no loss of the likelihood.

Приоритетные направления: компьютерно-математическое
Язык: английский
DOI
Текст на другом сайте
Ключевые слова: EM-algorithmlatent Dirichlet allocationprobabilistic topic modelregularization of ill-posed inverse problemsProbabilistic latent sematic analysis
Похожие публикации
Natural hazard database from Internet publications: text mining with a large language model
Деркачева А. А., Сакиркина М. А., Краев Г. Н. и др., /. 2026.
Добавлено: 28 апреля 2026 г.
Ising models on the hydrogen peroxide and other lattices
Qin X., Deng Y., Щур Л. Н. и др., / Series arXiv "math". 2026. No. 2603.02962.
Добавлено: 20 апреля 2026 г.
Algorithmic overlaps as thermodynamic variables: from local to cluster Monte Carlo dynamics in critical phenomena
Пиле Я. Э., Deng Y., Щур Л. Н., / Series arXiv "math". 2026. No. 2604.10254.
Добавлено: 20 апреля 2026 г.
Using predefined vector systems to speed up neural network multimillion class classification
Gabdullin N., Андросов И. А., / Series Computer Science "arxiv.org". 2026.
Добавлено: 2 апреля 2026 г.
Iterative Ricci-Foster Curvature Flow with GMM-Based Edge Pruning: A Novel Approach to Community Detection
Сорокин К. С., Бекетов М. Е., Онучин А. и др., / arxiv.org. Серия cs.SI "Social and Information Networks ". 2025.
Обнаружение сообществ в сложных сетях — фундаментальная проблема, открытая для новых подходов в различных научных областях. Мы представляем новый метод обнаружения сообществ, основанный на потоке Риччи на графах. Наша техника итеративно обновляет веса ребер (их метрические длины) в соответствии с их (комбинаторной) версией кривизны Риччи Фостера, вычисленной на основе эффективного расстояния сопротивления между узлами. Известно, ...
Добавлено: 15 января 2026 г.
Implementing Transport Coding in OMNeT++ for Message Delay Reduction
Петрованов И. С., Сергеев А. В., / Series Computer Science "arxiv.org". 2025. No. 2512.18332.
Добавлено: 24 декабря 2025 г.
Hessian-based lightweight neural network for brain vessel segmentation on a minimal training dataset
Меньшиков И. А., Бернадотт А. К., Елфимов Н. С., / Series arXie "Statistical mechanics". 2025.
Добавлено: 1 декабря 2025 г.
Determining the boundary of dynamical chaos in the generalized Chirikov map via machine learning
Чернышов Д. П., Сатанин А. М., Щур Л. Н., / Series arXiv "math". 2025.
Добавлено: 21 ноября 2025 г.
Эффективный алгоритм торговли на фондовом рынке: ретроспективный анализ, основанный на данных по S&P-500.
Рубчинский А. А., Чубарова Д. А., / Series WP7 "Математические методы анализа решений в экономике, бизнесе и политике". 2025. No. WP7/2025/01.
Добавлено: 9 ноября 2025 г.
Diffusion on language model embeddings for protein sequence generation
Мещанинов В. П., Strashnov, P., Shevtsov A. и др., / Cornell University. Серия CoRR, arXiv:2403.03726 "Computing Research Repository,". 2025.
Дизайн белков требует глубокого понимания присущей сложности «белкового вселенной». Хотя многие работы ориентируются на условную генерацию или сосредоточены на отдельных семействах белков, базовая задача безусловной генерации остаётся недостаточно изученной и недооценённой. В этой работе мы исследуем именно этот ключевой аспект и представляем DiMA — модель, которая использует непрерывную диффузию по эмбеддингам, полученным из языковой модели для белков ESM-2, ...
Добавлено: 5 октября 2025 г.
Smoothie: Smoothing Diffusion on Token Embeddings for Text Generation
Шабалин А. М., Мещанинов В. П., Vetrov D., / Series cs.CL, arXiv:2505.18853 "Computation and Language". 2025.
Диффузионные модели достигли передовых результатов в генерации изображений, аудио и видео, однако их адаптация к тексту остаётся сложной из-за его дискретной природы. Ранее подходы либо применяют гауссовскую диффузию в непрерывных латентных пространствах, что наследует семантическую структуру, но затрудняет декодирование токенов, либо работают в пространстве категориального симплекса, что учитывает дискретность, но игнорирует семантические связи между токенами. ...
Добавлено: 5 октября 2025 г.
A Feature Engineering Framework for Computer Vision Based on Topological Data Analysis
Абрамов А. С., Чернышев В. Л., Михайлец Е. В. и др., / Series Social Science Research Network "Social Science Research Network". 2025.
Добавлено: 23 сентября 2025 г.
On the construction of frieze patterns from partitions of convex polygons by nonintersecting diagonals
Кочетков Ю. Ю., / Series arXiv.org e-print archive "arXiv.math". 2025. No. 07600.
Добавлено: 17 сентября 2025 г.
On one property of Catalan numbers
Кочетков Ю. Ю., / Series arXiv.org e-print archive "arXiv.math". 2025. No. 20584.
Добавлено: 9 сентября 2025 г.
Processing and Analysis of Russian Strategic Planning Programs
Алексейчук Н. Н., Саркисян В. В., Emelyanov A. и др., , in: Digital Transformation and Global Society. Fourth International Conference, DTGS 2019, St. Petersburg, Russia, June 19–21, 2019, Revised Selected Papers.: Springer, 2019. P. 68–81.
Добавлено: 30 октября 2019 г.
Stable topic modeling for web science: Granulated LDA
Кольцов С. Н., Николенко С. И., Кольцова Е. Ю. и др., , in: WebSci 2016 - Proceedings of the 2016 ACM Web Science Conference.: Elsevier, 2016. P. 342–343.
Topic modeling is a powerful tool for analyzing large collections of user-generated web content, but it still suffers from problems with topic stability, which are especially important for social sciences. We evaluate stability for differenttopic models and propose a new model, granulated LDA,that samples short sequences of neighboring words at once. We show that gLDA ...
Добавлено: 24 октября 2016 г.
Convergence of an alternating maximization procedure
Andresen A., Спокойный В. Г., Journal of Machine Learning Research 2016 No. 17(63) P. 1–53
We derive two convergence results for a sequential alternating maximization procedure to approximate the maximizer of random functionals such as the realized log likelihood in MLE estimation. We manage to show that the sequence attains the same deviation properties as shown for the profile M-estimator by Andresen and Spokoiny (2013), that means a finite sample ...
Добавлено: 8 сентября 2016 г.
Reconstruction of prograde and retrograde Chandler excitation
Zotov L., Bizouard C., Journal of Inverse and Ill-posed problems 2015 Vol. 24 No. 1 P. 99–105
Добавлено: 30 сентября 2015 г.
Shape Perception
Савада Т., Li Y., Pizlo Z., , in: The Oxford Handbook of Computational and Mathematical Psychology.: Oxford University Press, 2015. P. 255–276.
Добавлено: 10 марта 2015 г.
Модификации EM-алгоритма для вероятностного тематического моделирования
Воронцов К. В., Потапенко А. А., Машинное обучение и анализ данных 2013 Т. 1 № 6 С. 657–686
Вероятностная тематическая модель (ВТМ) строит интерпретируемое представление коллекции текстовых документов,     описывая каждый документ дискретным распределением на множестве тем, каждую тему - дискретным распределением на множестве терминов. Рассматривается обобщённый EM-алгоритм с эвристиками сглаживания, сэмплирования, робастности и разреживания, позволяющий при различных сочетаниях этих эвристик получать как известные тематические модели PLSA, LDA, SWB, так и новые. ...
Добавлено: 19 февраля 2015 г.
Регуляризация, робастность и разреженность вероятностных тематических моделей
Воронцов К. В., Потапенко А. А., Компьютерные исследования и моделирование 2012 Т. 4 № 4 С. 693–706
Предлагается обобщённое семейство вероятностных тематических моделей коллекций тек- стовых документов, в котором эвристики регуляризации, сэмплирования, частого обновления параметров, робастности относительно шума и фона могут включаться независимо друг от дру- га в любых сочетаниях, порождая как известные модели PLSA, LDA, CVB0, SWB, так и новые. Показано, что робастная тематическая модель на основе PLSA, разделяющая термины на ...
Добавлено: 19 февраля 2015 г.
Советский учитель на фоне школьной повести: корпусная перспектива
Маслинский К. А., Детские чтения 2014 Т. 6 № 2 С. 112–126
Задача данной статьи — анализ дискурсивного фона, на котором существуют образы учителей в советской школьной повести послевоенного периода. Материалом послужил корпус текстов 37 авторов о школе и школьниках, написанных в 1940–1980 гг. общим объемом 1,8 млн слов. С помощью вероятностного тематического моделирования (LDA) был проведен втоматический анализ содержания эпизодов, в которых упоминаются ключевые слова директор, ...
Добавлено: 17 января 2015 г.
Multilevel classifiers based on a tree-structured set of Gaussian densities
N.A. Novikov, Pattern Recognition and Image Analysis 2014 Vol. 24 No. 3 P. 443–451
Добавлено: 16 января 2015 г.
Tutorial on Probabilistic Topic Modeling: Additive Regularization for Stochastic Matrix Factorization
Konstantin Vorontsov, Anna Potapenko, , in: Communications in Computer and Information ScienceVol. 436: Analysis of Images, Social Networks and Texts. Third International Conference, AIST 2014 Yekaterinburg, Russia, April 10–12, 2014 Revised Selected Papers.: Cham: Springer, 2014. P. 29–46.
Добавлено: 5 декабря 2014 г.
  • О ВЫШКЕ
  • Цифры и факты
  • Руководство и структура
  • Устойчивое развитие в НИУ ВШЭ
  • Преподаватели и сотрудники
  • Корпуса и общежития
  • Закупки
  • Обращения граждан в НИУ ВШЭ
  • Фонд целевого капитала
  • Противодействие коррупции
  • Сведения о доходах, расходах, об имуществе и обязательствах имущественного характера
  • Сведения об образовательной организации
  • Людям с ограниченными возможностями здоровья
  • Единая платежная страница
  • Работа в Вышке
  • ОБРАЗОВАНИЕ
  • Лицей
  • Довузовская подготовка
  • Олимпиады
  • Прием в бакалавриат
  • Вышка+
  • Прием в магистратуру
  • Аспирантура
  • Дополнительное образование
  • Центр развития карьеры
  • Бизнес-инкубатор ВШЭ
  • Образовательные партнерства
  • Обратная связь и взаимодействие с получателями услуг
  • НАУКА
  • Научные подразделения
  • Исследовательские проекты
  • Мониторинги
  • Диссертационные советы
  • Защиты диссертаций
  • Академическое развитие
  • Конкурсы и гранты
  • Внешние научно-информационные ресурсы
  • РЕСУРСЫ
  • Библиотека
  • Издательский дом ВШЭ
  • Книжный магазин «БукВышка»
  • Типография
  • Медиацентр
  • Журналы ВШЭ
  • Публикации
  • http://www.minobrnauki.gov.ru/
    Министерство науки и высшего образования РФ
  • https://edu.gov.ru/
    Министерство просвещения РФ
  • http://www.edu.ru
    Федеральный портал «Российское образование»
  • https://elearning.hse.ru/mooc
    Массовые открытые онлайн-курсы
  • НИУ ВШЭ1993–2026
  • Адреса и контакты
  • Условия использования материалов
  • Политика конфиденциальности
  • Правила применения рекомендательных технологий в НИУ ВШЭ
  • Карта сайта
Редактору