Interval Semi-supervised LDA: Classifying Needles in a Haystack

A
A
A

АБВ
АБВ
АБВ

A
A
A
A
A

Обычная версия сайта

RU
EN

Национальный исследовательский университет «Высшая школа экономики»
Публикации ВШЭ
Глава
Interval Semi-supervised LDA: Classifying Needles in a Haystack

RU
EN

Расширенный поиск

Высшая школа экономики

Национальный исследовательский университет

Приоритетные направления

бизнес-информатика
государственное и муниципальное управление
гуманитарные науки
инженерные науки
компьютерно-математическое
математика
менеджмент
право
социология
экономика

по году

Тематика

20 июля 2026 г.

<a>Как идеи Гегеля и Маркса помогают понять жилищный кризис

Исследователи из НИУ ВШЭ проанализировали, как жилищный кризис в европейских странах влияет на представления молодых людей о собственности, свободе и будущем. Снижение доступности собственного жилья приводит к попыткам самореализации и получения признания в цифровой среде — в игровых мирах и метавселенных. Статья опубликована в журнале Philosophies.

23 июля 2026 г.

РНФ поддержал 31 проект молодых ученых НИУ ВШЭ

Российский научный фонд подвел итоги трех конкурсов, направленных на поддержку молодых ученых. Победителями признаны более 850 проектов, в том числе 31 из Высшей школы экономики. На средства грантов будут проведены исследования, направленные на решение конкретных задач в рамках приоритетов научно-технологического развития, которые определены в Стратегии научно-технологического развития Российской Федерации.

22 июля 2026 г.

Тяга к сладкому оказалась важнее заботы о здоровье

Исследователи НИУ ВШЭ в Перми с помощью ЭЭГ изучили, как тяга к сладкому и интерес к здоровому питанию влияют на оценку газированных напитков со вкусом колы. В ходе дегустации участники оценивали вкус напитка и называли максимальную сумму, которую готовы за него заплатить. Оказалось, что чем выше интерес человека к здоровью, тем более сложным и когнитивно затратным для него является решение о готовности платить и тем меньше в итоге он будет готов заплатить за такой напиток. Исследование опубликовано в журнале British Food Journal.

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!

Публикации

Книги
Статьи
Главы в книгах
Препринты

Верификация публикаций
Расширенный поиск
Правила использования материалов
Наука в ВШЭ

?

Interval Semi-supervised LDA: Classifying Needles in a Haystack

P. 265–274.

Bodrunova S., Кольцов С. Н., Кольцова Е. Ю., Николенко С. И., Shimorina A.

An important text mining problem is to find, in a large collection of texts, documents related to specic topics and then discern further structure among the found texts. This problem is especially important for social sciences, where the purpose is to nd the most representative documents for subsequent qualitative interpretation. To solve this problem, we propose an interval semi-supervised LDA approach, in which certain predened sets of keywords (that dene the topics researchers are interested in) are restricted to specic intervals of topic assignments. We present a case study on a Russian LiveJournal dataset aimed at ethnicity discourse analysis.

Язык: английский

Полный текст

Текст на другом сайте

Ключевые слова: text mining topic modeling latent Dirichlet allocation

ПУБЛИКАЦИЯ ПОДГОТОВЛЕНА ПО РЕЗУЛЬТАТАМ ПРОЕКТА:

Социально-политические процессы в Интернете (2013)

В книге

Proceedings of the 12th Mexican International Conference on Artificial Intelligence (MICAI 2013)

* I: Advances in Artificial Intelligence and Its Applications. , Berlin: Springer, 2013.

Похожие публикации

Образ старшего поколения в российском цифровом дискурсе о семье

Соколова Е. Н., Григорьева М. В., Знак: проблемное поле медиаобразования 2026 № 1(59) С. 92–101

Статья анализирует дискурсивные репрезентации образов бабушек и дедушек в пользовательском контенте о семье российского сегмента социальных медиа. На материале корпуса более двух миллионов публичных сообщений за сентябрь 2023 - сентябрь 2024 годов, собранного через Brand Analytics, выделен подкорпус из 82 138 постов с упоминанием старшего поколения. Применены автоматизированное тематическое моделирование (LDA), кластерный анализ, описательная статистика ...

Добавлено: 30 июня 2026 г.

Optimizing Modality Weights in Topic Models of Transactional Data

Хрыльченко К. Я., Воронцов К. В., Automation and Remote Control 2022 Vol. 83 No. 12 P. 1908–1922

Добавлено: 19 ноября 2025 г.

Institutional Determinants and Emerging Trends in Foreign Market Entry Strategies by Small and Medium Enterprises: A Systematic Literature Review

Сикачев А. О., Веселова А. С., Управленец 2026 Vol. 17 No. 1 P. 65–83

Когда малые и средние предприятия (МСП) стремятся выйти за пределы своей страны, привлекательность международных рынков не вызывает сомнений. Однако на этом пути часто встречаются многочисленные препятствия, которые могут быть сложными для компаний, не имеющих опыта международной экспансии. Цель данной статьи - восполнить существующий пробел в литературе путем тщательного анализа институциональных факторов, влияющих на интернационализацию МСП, ...

Добавлено: 21 августа 2025 г.

Substantive Criteria for Referring Statements from Texts to Events and Factors

I. V. Loginova, A. S. Piekalnits, E. A. Sabidaeva и др., Scientific and Technical Information Processing 2025 Vol. 52 No. 6 P. 738–751

Добавлено: 18 июля 2025 г.

From productivity to wellbeing? Topic modelling of doctoral education research

Смирнов Н. М., Higher Education 2026 Vol. 91 No. 3 P. 993–1021

Doctoral education has undergone significant transformations over the past two decades, driven by massification, internationalization, and the diversification of training models. These shifts have led to a growing body of research on doctoral education, yet little is known about the overarching thematic and geographical trends shaping this field. This study applies computational natural language processing ...

Добавлено: 26 мая 2025 г.

Цифровое моделирование тематического поля изучения социального капитала поколений в организациях

Волкова Н. В., Бордунос А. К., Чикер В. А. и др., Социальная психология и общество 2025 Т. 16 № 1 С. 5–27

Цель. Выявить ключевые темы, представленные в современных исследованиях о связи социального капитала с поколенческими различиями в организациях, применяя подходы диджитализации (цифрового моделирования) массива научных публикаций. Контекст и актуальность. Появление новых технологий, трудовая миграция и включенность представителей различных поколений в производственную деятельность актуализировали процесс непрерывной социализации индивидов в организационную среду и, соответственно, поиск социально-психологических инструментов для ее реализации. Цифровая ...

Добавлено: 5 мая 2025 г.

Войти через госуслуги? Факторы отношения к сервисам электронного правительства в социальных медиа

Егоров В. Ю., Филиппов И. Б., Ахременко А. С., Мониторинг общественного мнения: Экономические и социальные перемены 2025 № 1 С. 214–239

Фокус работы связан с общественным восприятием государственных практик в рамках политики цифровизации. Электронные практики взаимодействия с государством уже давно стали повседневными для большинства россиян: это подтверждается как опросами общественного мнения, так и высоким положением России в мировых рейтингах развития электронного правительства. В этих условиях появилось немало работ, направленных на изучение адаптации человека к новым цифровым ...

Добавлено: 1 мая 2025 г.

Censorship as a Dissociative Force: A Case of Sovremennik Magazine, 1847–1866

Vozhik E., Maslinsky K., Lisiukov R., CEUR Workshop Proceedings 2024 P. 938–949

Добавлено: 3 апреля 2025 г.

Using topic modeling for communities clusterization in the VKontakte social network

Горшков С. С., Ilyushin E., Chernysheva A. и др., International Journal of Open Information Technologies 2021 Vol. 9 No. 5 P. 12–17

Добавлено: 25 декабря 2024 г.

TEXTS OF DIFFERENT EMOTIONAL CLASSES AND THEIR TOPIC MODELING

Колмогорова А. В., Qiuhua S., Вестник Волгоградского государственного университета. Серия 2: Языкознание 2024 Vol. 23 No. 5 P. 60–71

The article is devoted to studying verbalization specifics of various emotional states in the texts in Russian with the purpose to confirm or refute the hypothesis that texts of different emotional classes reflect the denotative situation not identically, which is reflected in thematic specifics and lexical content. The research material consisted of eight corpus texts ...

Добавлено: 29 ноября 2024 г.

Topic models with elements of neural networks: investigation of stability, coherence, and determining the optimal number of topics

Sergei Koltcov, Сурков А. Ю., Filippov V. и др., PeerJ Computer Science 2024 Vol. 10 P. 41

Добавлено: 16 февраля 2024 г.

Сила и слабость: динамика репрезентации гегемонной маскулинности в русскоязычном рэпе

Жучкова С. В., Бойченко А. Е., Смирнов Н. М., Журнал социологии и социальной антропологии 2024 Т. 27 № 1 С. 103–138

В общественной и академической дискуссии рэп зачастую представляется как один из наиболее агрессивных музыкальных жанров, в разном виде изображающий насилие и жестокость. Этому способствует социальный контекст возникновения рэпа — его появление в криминальном районе Нью-Йорка и распространение среди бедного чернокожего населения. Используя понятие гегемонной маскулинности, различные исследователи показывают, как рэперам удается устанавливать доминирование над другими ...

Добавлено: 11 февраля 2024 г.

О прошлом, но в разное время: компьютерный анализ текстов учебников по истории СССР/России для шести поколений студентов

Колмогорова А. В., Колмогорова П. А., Куликова Е. Р., Вестник Томского государственного университета. Филология 2024 № 89 С. 73–103

В статье анализируются тексты о семи периодах российской истории в трех вузовских учебниках: 1946, 1983 и 2006 годов. С помощью методов компьютерного анализа текстовых данных выявляется специфика поколенческого нарратива об истории страны в указанные три временных периода. Результаты демонстрируют, что тексты разных лет имеют различных эмоциональный «размах», разные тематические доминанты, которые связаны с «духом» соответствующего ...

Добавлено: 10 декабря 2023 г.

Тематическое моделирование для коротких текстов: сравнительный анализ

Ващенко В. А., Социология: методология, методы, математическое моделирование 2023 № 56 С. 69–112

Устойчивый рост популярности социальных сетей в качестве средства коммуникации актуализирует методологические вопросы, связанные с особенностями обработки коротких текстов, обладающих меньшим семантическим контекстом, чем крупные тексты, широко используемые для обучения и тестирования моделей машинного обучения для работы с текстовыми данными. Тематическое моделирование – метод машинного обучения «без учителя», нацеленный на агрегацию текстов в тематические кластеры – ...

Добавлено: 7 декабря 2023 г.

Конструирование образа города в официальной и обыденной коммуникации: сравнительный анализ (на материале социальных медиа)

Маткин Н. А., Коммуникации. Медиа. Дизайн 2025 Т. 10 № 3 С. 89–110

В статье предлагается анализ и визуализация российских образов городов, формирующихся в комментариях подписчиков городских сообществ и постов пресс-служб администраций. Образ города рассматривается как фреймовая структура, формирующаяся через политическую и межличностную коммуникацию в сети. Социальная составляющая образа города выделяется как определяющая. В работе апробирована методология изучения образа города в отечественной социальной сети VK. Методология состоит из ...

Добавлено: 15 ноября 2023 г.

Компьютерное моделирование как инструмент анализа художественного текста

Колмогорова А. В., Залевская Е. Д., Филологический класс 2023 Т. 28 № 2 С. 22–33

Статья посвящена проблеме эвристической продуктивности использования метода компьютерного тематического моделирования для филологического анализа художественного текста. Анализируются результаты применения алгоритма Латентного размещения Дирехле (LDA) для поиска интертекстуальных связей мотивов в двух подкорпусах художественных текстов: 62 текстах разного жанра (рассказы, очерки, повести, критические статьи), принадлежащих перу С. Довлатова, с одной стороны, и 35 художественных произведениях, которые в ...

Добавлено: 31 октября 2023 г.

ИНЖЕНЕРНЫЕ ЛИНГВИСТИЧЕСКИЕ ТЕХНОЛОГИИ В ИССЛЕДОВАНИИ ТЕКСТА

Колмогорова А. В., Terra Linguistica 2023 Т. 14 № 1 С. 7–10

Публикация посвящена анализу современного состояния инженерной лингвистики, ее основных направлений и исследовательских вызовов. Формулируется определение языковых технологий и их типология по критерию решаемых с их помощью задач. Отмечается, что отечественной школе инженерной лингвистики удается сохранить баланс между технологичностью и лингвистичностью изысканий. ...

Добавлено: 31 октября 2023 г.

О ВЫШКЕ
Цифры и факты
Руководство и структура
Устойчивое развитие в НИУ ВШЭ
Преподаватели и сотрудники
Корпуса и общежития
Закупки
Обращения граждан в НИУ ВШЭ
Фонд целевого капитала
Противодействие коррупции
Сведения о доходах, расходах, об имуществе и обязательствах имущественного характера
Сведения об образовательной организации
Людям с ограниченными возможностями здоровья
Единая платежная страница
Работа в Вышке

ОБРАЗОВАНИЕ
Лицей
Довузовская подготовка
Олимпиады
Прием в бакалавриат
Вышка+
Прием в магистратуру
Аспирантура
Дополнительное образование
Центр развития карьеры
Бизнес-инкубатор ВШЭ
Образовательные партнерства
Обратная связь и взаимодействие с получателями услуг

НАУКА
Научные подразделения
Исследовательские проекты
Мониторинги
Диссертационные советы
Защиты диссертаций
Академическое развитие
Конкурсы и гранты
Внешние научно-информационные ресурсы

РЕСУРСЫ
Библиотека
Издательский дом ВШЭ
Книжный магазин «БукВышка»
Типография
Медиацентр
Журналы ВШЭ
Публикации

http://www.minobrnauki.gov.ru/
Министерство науки и высшего образования РФ
https://edu.gov.ru/
Министерство просвещения РФ
https://elearning.hse.ru/mooc
Массовые открытые онлайн-курсы

НИУ ВШЭ1993–2026
Адреса и контакты
Условия использования материалов
Политика конфиденциальности
Правила применения рекомендательных технологий в НИУ ВШЭ
Карта сайта

Редактору