?
Аддитивная регуляризация тематических моделей
С. 88.
Воронцов К. В.
Назрела необходимость разработки новых принципов построения тематических моделей, свободных от избыточных вероятностных допущений. Предлагаемая теория аддитивной регуляризации тематических моделей (АРТМ) решает эти проблемы.
Язык:
русский
N. A. Chirkova, K. V. Vorontsov, Journal of machine learning and data analysis 2016 Vol. 2 No. 2 P. 187–200
Добавлено: 19 октября 2017 г.
Нокель М. А., Лукашевич Н. В., Вычислительные методы и программирование 2015 Т. 16 № 2 С. 215–234
Представлены результаты экспериментов по добавлению биграмм в тематические модели и учету сходства между ними и униграммами. Предложен новый алгоритм PLSA-SIM, являю- щийся модификацией алгоритма построения тематических моделей PLSA (Probabilistic Latent Semantic Analysis). Предложенный алгоритм позволяет добавлять биграммы и учитывать сход- ство между ними и униграммными компонентами. Исследована возможность применения ас- социативных мер для выбора и ...
Добавлено: 15 марта 2016 г.
Нокель М. А., Вестник Воронежского государственного университета. Серия: Системный анализ и информационные технологии 2014 № 4 С. 89–97
В статье представлены результаты экспериментов по добавлению сходства между униграммами и биграммами в тематические модели. Вначале изучается возможность применения ассоциативных мер для выбора и последующего включения биграмм в тематические модели. Затем предлагается модификация оригинального алгоритма PLSA, учитывающая похожие униграммы и биграммы, начинающиеся с одних и тех же букв. И в конце статьи предлагается новый итеративный ...
Добавлено: 15 марта 2016 г.
Потапенко А. А., В кн.: Ломоносов-2014: Материалы XXI Международной научной конференции студентов, аспирантов и молодых ученых: секция «Вычислительная математика и кибернетика».: М.: Издательский отдел факультета ВМК МГУ им. М.В. Ломоносова, 2014. С. 80–82.
Вероятностное тематическое моделирование — это современный инструмент статистического анализа текстов, предназначенный для выявления тематики коллекций документов. Задача построения тематической модели имеет бесконечно много решений, что приводит к неустойчивости и плохой интерпретируемости тем. Для решения этих проблем применяется подход аддитивной регуляризации тематических моделей (ARTM). Интерпретируемость тем формализуется с помощью понятия "ядра", и вводятся регуляризаторы, способствующие их ...
Добавлено: 23 декабря 2014 г.
М.А. Нокель, В кн.: Selected Papers of XVI All-Russian Scientific Conference "Digital libraries: Advanced Methods and Technologies, Digital Collections"Т. 1297.: Дубна: CEUR Workshop Proceedings, 2014. С. 243–252.
В статье представлены результаты экспериментов по добавлению сходства между униграммами и биграммами в тематические модели. Вначале изучается возможность применения ассоциативных мер для выбора последующего включения биграмм в тематические модели. Затем предлагается модификация оригинального алгоритма PLSA, учитывающая похожие униграммы и биграммы, начинающиеся с одних и тех же букв. И в конце статьи предлагается новый итеративный алгоритм ...
Добавлено: 18 декабря 2014 г.
Konstantin Vorontsov, Anna Potapenko, , in: Communications in Computer and Information ScienceVol. 436: Analysis of Images, Social Networks and Texts. Third International Conference, AIST 2014 Yekaterinburg, Russia, April 10–12, 2014 Revised Selected Papers.: Cham: Springer, 2014. P. 29–46.
Добавлено: 5 декабря 2014 г.
Воронцов К. В., Доклады Академии наук 2014 Vol. 89 No. 3 P. 301–304
Добавлено: 5 декабря 2014 г.
Нокель М. А., В кн.: Сборник материалов XXI международной конференции студентов, аспирантов и молодых ученых "Ломоносов-2014".: М.: Издательство МГУ, 2014. С. 120–121.
В данной работе предложен метод предобработки коллекции текстов на русском языке, улучшающий качество работы тематических моделей ...
Добавлено: 1 октября 2014 г.
М.А. Нокель, Н.В. Лукашевич, Программная инженерия 2014 № 3 С. 34–40
Представлены результаты экспериментального исследования возможности использования тематических моделей в задаче автоматического извлечения однословных терминов. В качестве текстовых коллекций была взята подборка статей из электронных банковских журналов на русском языке и англоязычная часть корпуса параллельных текстов Europarl общественно-политической тематики. Эксперименты показывают, что использование тематической информации способно улучшить качество извлечения однословных терминов независимо от предметной области и ...
Добавлено: 1 октября 2014 г.
Нокель М.А., Лукашевич Н.В., В кн.: Selected Papers of the 15th All-Russian Scientific Conference "Digital Libraries: Advanced Methods and Technologies, Digital Collections", Yaroslavl, Russia, October 14-17, 2013Vol. 1108.: CEUR Workshop Proceedings, 2013. С. 52–60.
В статье представлены результаты экспериментов по применению тематических моделей к задаче извлечения однословных терминов. В качестве текстовых коллекций была взята подборка статей из электронных банковских журналов на русском языке и англоязычная часть корпуса параллельных текстов Europal. Эксперименты показывают, что использование тематической информации значительно улучшает качество извлечения однословных терминов независимо от предметной области и используемого языка. ...
Добавлено: 1 октября 2014 г.
Elena Bolshakova, Natalia Loukachevitch, Нокель М. А., , in: Proc. 35th European Conference on Information Retrieval (ECIR 2013): Advances in Information RetrievalVol. 7814.: Springer, 2013. P. 684–687.
Добавлено: 1 октября 2014 г.
Roytberg M.A., Roytberg A.M., Khachko D. V., , in: Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 29 мая - 2 июня 2013 г.). В 2-х т.Т. 1: Основная программа конференции. Вып. 12 (19).: М.: РГГУ, 2013. P. 568–578.
Добавлено: 6 мая 2014 г.