• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • A
  • A
  • A
  • A
  • A
Обычная версия сайта
  • RU
  • EN
  • Национальный исследовательский университет «Высшая школа экономики»
  • Публикации ВШЭ
  • Статьи
  • Тематическое моделирование для коротких текстов: сравнительный анализ
  • RU
  • EN
Расширенный поиск
Высшая школа экономики
Национальный исследовательский университет
Приоритетные направления
  • бизнес-информатика
  • государственное и муниципальное управление
  • гуманитарные науки
  • инженерные науки
  • компьютерно-математическое
  • математика
  • менеджмент
  • право
  • социология
  • экономика
по году
  • 2027
  • 2026
  • 2025
  • 2024
  • 2023
  • 2022
  • 2021
  • 2020
  • 2019
  • 2018
  • 2017
  • 2016
  • 2015
  • 2014
  • 2013
  • 2012
  • 2011
  • 2010
  • 2009
  • 2008
  • 2007
  • 2006
  • 2005
  • 2004
  • 2003
  • 2002
  • 2001
  • 2000
  • 1999
  • 1998
  • 1997
  • 1996
  • 1995
  • 1994
  • 1993
  • 1992
  • 1991
  • 1990
  • 1989
  • 1988
  • 1987
  • 1986
  • 1985
  • 1984
  • 1983
  • 1982
  • 1981
  • 1980
  • 1979
  • 1978
  • 1977
  • 1976
  • 1975
  • 1974
  • 1973
  • 1972
  • 1971
  • 1970
  • 1969
  • 1968
  • 1967
  • 1966
  • 1965
  • 1964
  • 1963
  • 1958
  • еще
Тематика
Новости
18 мая 2026 г.
В Вышке прошла XXX юбилейная научно-техническая конференция имени Е.В. Арменского
Организатором научного события выступает Московский институт электроники и математики им. А.Н. Тихонова ВШЭ. В этом году главный инженерный студенческий форум проходил 30-й раз и собрал рекордное число участников. Студенты, аспиранты и молодые специалисты из 50 вузов и организаций России представили научно-исследовательские доклады в ИТ-области. Отдельная секция была посвящена научно-исследовательским работам школьников.
15 мая 2026 г.
В НИУ ВШЭ разрабатывают нейросеть для сферы науки и инноваций
Исследователи НИУ ВШЭ учат большие языковые модели понимать русскоязычную научную терминологию, увеличивая при этом их энергоэффективность. Адаптированная модель работает в 2,7 раза быстрее и требует на 73% меньше памяти, чем исходная открытая модель, что позволяет запускать ее на более доступном оборудовании. Программа прошла государственную регистрацию.
15 мая 2026 г.
Стартовал совместный спецпроект бренд-медиа Вышки IQ Media и iFORA ИСИЭЗ
В мае 2026 года стартовал научно-популярный проект «Искусственный интеллект: технологии, данные и будущее», который стал результатом работы двух команд — проекта iFORA Института статистических исследований и экономики знаний НИУ ВШЭ и редакции бренд-медиа IQMedia. Медийно-аналитический спецпроект посвящен современному развитию искусственного интеллекта и аналитике больших данных.

 

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!

Публикации
  • Книги
  • Статьи
  • Главы в книгах
  • Препринты
  • Верификация публикаций
  • Расширенный поиск
  • Правила использования материалов
  • Наука в ВШЭ

?

Тематическое моделирование для коротких текстов: сравнительный анализ

Социология: методология, методы, математическое моделирование. 2023. № 56. С. 69–112.
Ващенко В. А.

Устойчивый рост популярности социальных сетей в качестве средства коммуникации актуализирует методологические вопросы, связанные с особенностями обработки коротких текстов, обладающих меньшим семантическим контекстом, чем крупные тексты, широко используемые для обучения и тестирования моделей машинного обучения для работы с текстовыми данными. Тематическое моделирование – метод машинного обучения «без учителя», нацеленный на агрегацию текстов в тематические кластеры – имеет множество академических и практических приложений в случаях отсутствия подробной разметки текстовых данных. Однако, качество работы алгоритмов тематического моделирования может ограничиваться полнотой семантического контекста, необходимого для качественного числового представления единицы текста. В этой статье рассматриваются 3 разных подхода к тематическому моделированию: классический LDА, обогащенный предобученными словарными эмбеддингами, тематическое моделирование на базе трансформерной модели BERT и сетевой подход к задаче тематического моделирования с использованием стохастических блокмоделей. Сравнивается качество работы указанных алгоритмов на наборе русскоязычных комментариев в сети TikTok и проводится формальная оценка скорости и когерентности результирующих тем.

Научное направление: Социология (включая демографию и антропологию) Медиа и коммуникации Компьютерные науки
Язык: русский
DOI
Ключевые слова: анализ текстовых данныхtopic modelingтематическое моделированиеприкладной сетевой анализapplied network analysistextual data analysis
ПУБЛИКАЦИЯ ПОДГОТОВЛЕНА ПО РЕЗУЛЬТАТАМ ПРОЕКТА:
Развитие сетевого анализа в России: адаптация теоретико-методологических подходов и практическое применение (2024)
Похожие публикации
Migration in Regions of the Near North of Russia with Respect to Provision of Settlements with Social Infrastructure
Мкртчян Н. В., Regional Research of Russia 2026 Vol. 16 No. 1 P. 170–181
Добавлено: 16 мая 2026 г.
Determinants of Сonsent to Personal Data Surveillance: Experimental Evidence from Russia
Сизов А. А., Родионова М. М., Седашов Е. А. и др., / NRU Higher School of Economics. Series PS "Political Science". 2026. No. 1.
Rapid development of surveillance technologies is one of the most socially important consequences of the digital age. This paper investigates the factors determining consent to surveillance of various types of personal data and contributes to rapidly growing research on citizens perceptions of surveillance practices. Relying on a comprehensive survey experiment, we study the effects of ...
Добавлено: 15 мая 2026 г.
Быть и остаться мусульманином в тюрьме: от стратегий выживания к агентности и сопротивлению
Омельченко Е. Л., Гарифзянова А. Р., Мир России: Социология, этнология 2026 № 2 С. 170–193
В статье предлагается анализ положения мусульман в рамках российской пенитенци арной системы. Эмпирической базой стали 74 биографических интервью с бывшими заключенными в трех регионах России. Фокус анализа – истории бывших заключен ных-мужчин, назвавших себя мусульманами. Поддержка статуса мусульманина тре бует от человека готовности к проявлению агентности, сопротивлению, к отказу от следования правилам тюремной иерархии или ...
Добавлено: 14 мая 2026 г.
Репрезентация Холокоста в СМИ стран Центрально-Восточной и Северной Европы во втором десятилетии XXI века
Кровицкая А. В., Попов Д. И., Кравченко А. А. и др., Judaic-Slavic Journal 2024 № 11-12 С. 133–186
Представленное в статье исследование посвящено репрезентации памяти о Холокосте в медиа Центрально-Восточной и Северной Европы во втором десятилетии XXI века (на примере Германии, Австрии, Польши, Литвы, Латвии, Эстонии, Швеции, Дании, Норвегии). В соответствии с гипотезой авторов, в каждом из этих государств существует особая память о Второй мировой войне, которая встраивается в национальные нарративы, но сочетается ...
Добавлено: 13 мая 2026 г.
Быть и остаться мусульманином в тюрьме: от стратегий выживания к агентности и сопротивлению
Гарифзянова А. Р., Мир России: Социология, этнология 2026 № 2 С. 170–193
В статье предлагается анализ положения мусульман в рамках российской пенитенциарной системы. Эмпирической базой стали 74 биографических интервью с бывшими заключенными в трех регионах России. Фокус анализа – истории бывших заключенных-мужчин, назвавших себя мусульманами. Поддержка статуса мусульманина требует от человека готовности к проявлению агентности, сопротивлению, к отказу от следования правилам тюремной иерархии или дистанцированию от нее. ...
Добавлено: 13 мая 2026 г.
Миграция населения в регионах Ближнего Севера России во взаимосвязи с обеспеченностью населенных пунктов социальной инфраструктурой
Мкртчян Н. В., Известия РАН. Серия географическая 2026 Т. 90 № 1 С. 231–245
Цель исследования — оценить обеспеченность всех населенных пунктов четырех регионов Ближнего Севера России (Вологодской, Костромской, Кировской и Ярославской областей) учреждениями социальной инфраструктуры и проанализировать, связан ли миграционный баланс населенных пунктов с разной обеспеченностью этими учреждениями. Исследование выполнено на основе собранных из открытых источников данных по наличию во всех населенных пунктах учреждений образования и здравоохранения по состоянию на середину 2024 ...
Добавлено: 13 мая 2026 г.
QGKM: A Quantum Fidelity-Based Graph Clustering Framework for Robust Data Pattern Recognition in Education Social Networks QGKM: A Quantum Fidelity-Based Graph Clustering Framework for Robust Data Pattern Recognition in Education Social Networks
Neal N. X., Weiqing L., Dacheng H. и др., Algorithms 2026 Vol. 19 No. 5 P. 1–22
Добавлено: 13 мая 2026 г.
ОТНОШЕНИЕ РОССИЯН К ЭВТАНАЗИИ: ОСОБЕННОСТИ, ДИНАМИКА И ФАКТОРЫ
Тихонова Н. Е., Социологическая наука и социальная практика 2025 Т. 14 № 1 С. 81–107
Учитывая актуализацию проблемы эвтаназии в мире в условиях нарастания тяжёлых раковых и генетических заболеваний, на данных Мониторинга ИС ФНИСЦ РАН 2024 г. и World Values Survey (2006 и 2017–2022 гг.) в статье показано, что в своём отношении к эвтаназии россияне делятся на две практически равные группы. Каждая из них имеет своё ядро и периферию, члены которой занимают колеблющуюся ...
Добавлено: 13 мая 2026 г.
Proceedings of the 9th Student Research Workshop associated with the International Conference Recent Advances in Natural Language Processing
Velichkov B., Nikolova-Koleva I., Slavcheva M., Shumen: INCOMA Ltd, 2025.
Добавлено: 12 мая 2026 г.
Индивидуальные практики кибербезопасности: связь с социально-эконо-мическим статусом и опытом переживания рисков
Щербаков Р. А., Мониторинг общественного мнения: Экономические и социальные перемены 2026 № 2 С. 216–235
Цель исследования состояла в выявлении факторов, связанных с ис-пользованием россиянами практик кибербезопасности. В качестве факторов рассматривались социально-экономический статус (пол, возраст, наличие высшего об-разования, тип поселения и материальное положение), а также опыт столкновения с цифровыми рисками и связанная с ним обеспокоенность приватностью в сети. Эмпирической базой послужили данные Мониторинга цифровой трансформации экономики и общества Института статистических ...
Добавлено: 12 мая 2026 г.
Фейк — это то, что бывает с другими: представления россиян о группах, уязвимых для дезинформации
Казун А. Д., Мониторинг общественного мнения: Экономические и социальные перемены 2026 № 2 С. 192–215
В статье проанализированы представления россиян о наиболее уязвимых для фейковых новостей группах. На материалах 119 интервью, проведенных весной 2024 г., сделан вывод о наличии эффекта третьего лица — убежденности, что дезинформация угрожает в первую очередь другим, которые отличаются от информантов по каким-либо значимым параметрам. Чаще всего основанием для разделения общества на «мы» (относительно защищенные от ...
Добавлено: 12 мая 2026 г.
Паттерны коллаборации российских социологов: часть 2 – анализ сетей соавторства
Мальцева Д. В., Щеглова Т. Е., Ващенко В. А., Социологические исследования 2026 № 1 С. 62–74
Статья продолжает представление результатов анализа сетей коллаборации российских социологов в 2010–2021 гг. на основе данных о 75 232 научных публикациях из электронной библиотеки eLibrary (№ 12, 2025). Используемая методология библиометрического сетевого анализа включает построение и исследование нескольких типов сетей коллаборации. Полученные сети включают 37 790 уникальных авторов. В первой части статьи на основе анализа публикационной ...
Добавлено: 12 мая 2026 г.
Интегрированная среда моделирования для верификации и валидации программ управления подключенными и высокоавтоматизированными транспортными средствами
Степанянц В. Г., Долгов И. М., Хорошилов Г. С. и др., Труды Института системного программирования РАН 2026 Т. 38 № 3 С. 95–110
На рынок постепенно выходят высокоавтоматизированные и подключенные транспортные средства (ТС). В настоящее время предлагаются решения, позволяющие использовать эти технологии для совместного управления дорожным движением, что может значительно повысить его безопасность. В статье анализируются требования к интегрированной среде моделирования подключенных и высокоавтоматизированных ТС и совместной автоматизации управления дорожным движением с высокодетализированным учетом влияния окружающих объектов. Проанализированы ...
Добавлено: 12 мая 2026 г.
Connected and Automated Vehicle Scenario Manager Graphical User Interface
Тихонов Р. А., Efendiev M. T., Fedotenkov A. A., 2026 International Russian Smart Industry Conference (SmartIndustryCon) 2026 P. 542–547
Добавлено: 11 мая 2026 г.
Proceedings 2026 IEEE 11th International Conference on Smart Cloud SmartCloud 2026 8-10 May 2026
Los Alamitos: IEEE Computer Society, 2026.
Добавлено: 10 мая 2026 г.
Домашние питомцы и здоровье пожилых. Количественный анализ
Карцева М. А., Пересецкий А. А., / Высшая школа экономики. Серия WP2 "Количественный анализ в экономике". 2026. № WP2/2026/01.
В данной работе исследуется связь между здоровьем одиноко проживающих пожилых людей и владением домашним питомцем (кошка, собака). Для анализа используются результаты обследования «Использование суточного фонда времени населением», проведенного Росстатом (Federal State Statistics Service, Rosstat) в 2019 г., которые содержат данные о более чем 10 000 одиноких пожилых людей возрастом более 60 лет в России, включая информацию ...
Добавлено: 8 мая 2026 г.
От неизвестности к прозрачности: обзор технологий объяснимого ИИ (XAI)
Авдошин С. М., Песоцкая Е. Ю., Информационные технологии 2026 Т. 32 № 4 С. 185–194
С развитием ИИ, и в особенности глубокого обучения, появились модели, способные давать крайне точные прогнозы. Однако их внутренняя логика остается трудной для понимания — и это серьезная проблема, особенно в сферах, где от корректности алгоритма зависят критиче ски важные решения. Одним из перспективных путей ее решения считается направление Explainable Artificial Intelligence (XAI) — разработка подходов, позволяющих прояснять ...
Добавлено: 8 мая 2026 г.
Подход к автоматическому распознаванию эмоций в транскрипциях речи
Двойникова А. А., Кондратенко К. О., Известия высших учебных заведений. Приборостроение 2023 Т. 66 № 10 С. 818–827
Аннотация. Исследован актуальный в различных областях вопрос распознавания эмоций в транскрипциях речи. Проанализировано влияние методов предобработки (удаление стоп-слов, лемматизация, стемминг) на точность распознавания эмоций в текстовых данных на русском и английском языках. Для проведения экспериментальных исследований использовались орфографические транскрипции диалогов из многомодальных корпусов RAMAS и CMU-MOSEI на русском и английском языке соответственно. Аннотирование этих корпусов ...
Добавлено: 25 апреля 2026 г.
Эко-реальность и эко-образ российских регионов в пабликах социальной сети «В Контакте»
Немировская А. В., Муничкина О. П., Вестник Института социологии 2026 Т. 17 № 1 С. 183–208
В статье рассматривается медиа-репрезентация экологических проблем в шести российских регионах через призму региональных пабликов в социальной сети «ВКонтакте» с официальным и неофициальным статусом, функционирующих как онлайн-СМИ. На основе анализа контента новостных пабликов в «ВКонтакте» из шести российских регионов, включая как экологически благополучные, так и неблагополучные, рассмотрено, как экологические проблемы освещаются в данных субъектах РФ, и ...
Добавлено: 1 апреля 2026 г.
Эмодукты счастья: коммодификация и маркетинговые стратегии в популярной психологии
Маткин Н. А., Новикова А. А., Экономическая социология 2026 Т. 27 № 1 С. 92–124
На фоне роста спроса на психологические услуги в России и распространения терапевтической культуры цифровые платформы становятся ключевой площадкой для коммерциализации эмоций. Однако механизмы коммодификации эмоций, особенно счастья, на цифровых платформах ещё мало изучены. Данная статья анализирует, как популярные российские психологические блогеры конструируют, упаковывают и продают абстрактную идею «счастья» как стандартизированный рыночный продукт — эмодукт. Исследование ...
Добавлено: 2 февраля 2026 г.
Optimizing Modality Weights in Topic Models of Transactional Data
Хрыльченко К. Я., Воронцов К. В., Automation and Remote Control 2022 Vol. 83 No. 12 P. 1908–1922
Добавлено: 19 ноября 2025 г.
Interaction of Functional Brain Networks Is Associated With k-Clique Percolation in the Human Structural Connectome
Догонашева О. А., Захаров Д. Г., Tiselko V. и др., Human Brain Mapping 2025 Vol. 46 No. 15 Article e70343
Добавлено: 11 ноября 2025 г.
Анализ тематики повседневных разговоров: экспертный подход и автоматические методы
Шерстинова Т. Ю., Вепринцева Д. А., Человек: образ и сущность. Гуманитарные аспекты 2025 № 2(62) С. 89–108
В статье рассматриваются три разных подхода к изучению тематики повседневных разговоров: экспертная тематическая разметка и два автоматических метода (тематическое моделирование и кластеризация). Материалом для исследования послужили расшифровки русской устной повседневной речи из корпуса ОРД, подготовленные на основе звукозаписей спонтанных разговоров, выполненных в естественных коммуникативных ситуациях (дома, на работе, в учебном заведении, в магазине, в поликлинике ...
Добавлено: 3 сентября 2025 г.
Модификация языковой модели SBERT для выявления ESG-рисков на основе текстовых данных компаний и контрольно-надзорных мероприятий
Бузмаков А. В., Кирпищиков Д. А., Найденова Ю. Н. и др., Вестник Санкт-Петербургского университета. Серия 10. Прикладная математика. Информатика. Процессы управления 2025 Т. 21 № 1 С. 75–91
Разработан подход для выявления рисков, связанных с влиянием компаний на окружающую среду, социальной ответственностью и качеством управления (Environmental, Social and Governance — ESG-рисков), на основе собранной текстовой информации о компании. Для достижения этого предлагается модификация языковой модели SBERT с четко заданной функцией расстояния пространства эмбеддингов. Модель обучена на данных контрольно-надзорных мероприятий и текстов сайтов компаний. ...
Добавлено: 6 июня 2025 г.
  • О ВЫШКЕ
  • Цифры и факты
  • Руководство и структура
  • Устойчивое развитие в НИУ ВШЭ
  • Преподаватели и сотрудники
  • Корпуса и общежития
  • Закупки
  • Обращения граждан в НИУ ВШЭ
  • Фонд целевого капитала
  • Противодействие коррупции
  • Сведения о доходах, расходах, об имуществе и обязательствах имущественного характера
  • Сведения об образовательной организации
  • Людям с ограниченными возможностями здоровья
  • Единая платежная страница
  • Работа в Вышке
  • ОБРАЗОВАНИЕ
  • Лицей
  • Довузовская подготовка
  • Олимпиады
  • Прием в бакалавриат
  • Вышка+
  • Прием в магистратуру
  • Аспирантура
  • Дополнительное образование
  • Центр развития карьеры
  • Бизнес-инкубатор ВШЭ
  • Образовательные партнерства
  • Обратная связь и взаимодействие с получателями услуг
  • НАУКА
  • Научные подразделения
  • Исследовательские проекты
  • Мониторинги
  • Диссертационные советы
  • Защиты диссертаций
  • Академическое развитие
  • Конкурсы и гранты
  • Внешние научно-информационные ресурсы
  • РЕСУРСЫ
  • Библиотека
  • Издательский дом ВШЭ
  • Книжный магазин «БукВышка»
  • Типография
  • Медиацентр
  • Журналы ВШЭ
  • Публикации
  • http://www.minobrnauki.gov.ru/
    Министерство науки и высшего образования РФ
  • https://edu.gov.ru/
    Министерство просвещения РФ
  • http://www.edu.ru
    Федеральный портал «Российское образование»
  • https://elearning.hse.ru/mooc
    Массовые открытые онлайн-курсы
  • НИУ ВШЭ1993–2026
  • Адреса и контакты
  • Условия использования материалов
  • Политика конфиденциальности
  • Правила применения рекомендательных технологий в НИУ ВШЭ
  • Карта сайта
Редактору