Тематическое моделирование для коротких текстов: сравнительный анализ

?

Тематическое моделирование для коротких текстов: сравнительный анализ

Социология: методология, методы, математическое моделирование. 2023. № 56. С. 69–112.

Ващенко В. А.

Устойчивый рост популярности социальных сетей в качестве средства коммуникации актуализирует методологические вопросы, связанные с особенностями обработки коротких текстов, обладающих меньшим семантическим контекстом, чем крупные тексты, широко используемые для обучения и тестирования моделей машинного обучения для работы с текстовыми данными. Тематическое моделирование – метод машинного обучения «без учителя», нацеленный на агрегацию текстов в тематические кластеры – имеет множество академических и практических приложений в случаях отсутствия подробной разметки текстовых данных. Однако, качество работы алгоритмов тематического моделирования может ограничиваться полнотой семантического контекста, необходимого для качественного числового представления единицы текста. В этой статье рассматриваются 3 разных подхода к тематическому моделированию: классический LDА, обогащенный предобученными словарными эмбеддингами, тематическое моделирование на базе трансформерной модели BERT и сетевой подход к задаче тематического моделирования с использованием стохастических блокмоделей. Сравнивается качество работы указанных алгоритмов на наборе русскоязычных комментариев в сети TikTok и проводится формальная оценка скорости и когерентности результирующих тем.

Научное направление: Социология (включая демографию и антропологию) Медиа и коммуникации Компьютерные науки

Язык: русский

DOI

ПУБЛИКАЦИЯ ПОДГОТОВЛЕНА ПО РЕЗУЛЬТАТАМ ПРОЕКТА:

Развитие сетевого анализа в России: адаптация теоретико-методологических подходов и практическое применение (2024)

250 лет спустя. Наследие Революции глазами африкано-американцев (по материалам полевых исследований 2013–2015 и 2021–2022 гг.)

Бондаренко Д. М., Диалог со временем 2026 № 95 С. 36–49

Статья посвящена взгляду на Революцию и ее наследие современных африкано-американцев и в особенности – вопросу о том, какими им видятся заложенные в ту эпоху социальные, политические, культурные первоосновы их страны и достигнутые на их фундаменте результаты и для американского общества в целом, и для его черного сообщества. Оценки прошлого, настоящего и будущего африкано-американцев у разных ...

Добавлено: 24 июля 2026 г.

Local Fault-Tolerant Routing in 3D Mesh NoCs using Single-Hop Rollback

Edward R. Rzaev, Aleksandr Y. Romanov, Andrey M. Sukhov, IEEE Access 2026

Добавлено: 23 июля 2026 г.

Gendered Dynamics in STEM Research Groups: Stereotypes, Role Allocation, and Female Students' Experiences at a Nigerian University

Ойеволе А., Савинская О. Б., Journal of Social Policy Studies 2026 Vol. 24 No. 2 P. 353–368

В статье с позиций теории структурации анализируется гендерная динамика в студенческих исследовательских группах STEM-направлений одного из университетов Нигерии. Несмотря на то что гендерное неравенство в сфере STEM хорошо документировано, сравнительно мало внимания уделяется микроуровневым интеракционным процессам, посредством которых гендерное неравенство воспроизводится, переосмысливается и в отдельных случаях преодолевается, особенно в незападных образовательных контекстах. Эмпирическую основу исследования ...

Добавлено: 23 июля 2026 г.

Библиометрия фольклора: русские пословицы в научных журналах

Писляков В. В., Вестник Томского государственного университета. Филология 2026 № 101 С. 175–192

Исследуется использование паремий в статьях, опубликованных в отечественных научных журналах. В результате поиска по платформе eLIBRARY.RU и постатейного просмотра полных текстов формируется «паремический массив» – набор журнальных статей, вышедших за 2014–2023 гг., в которых встречается одна из десяти исследуемых пословиц. Выделяются только случаи, когда пословицы используются авторами как пришедшиеся к слову изречения, а не как ...

Добавлено: 22 июля 2026 г.

Long-range machine-learning potentials with environment-dependent charges enable predicting LO-TO splitting and dielectric constants

Korogod D., Shapeev A., Новиков И. С., Physical Review B: Condensed Matter and Materials Physics 2026 Vol. 114 No. 2 Article 024104

Добавлено: 22 июля 2026 г.

Global optimization of atomic clusters via physically constrained tensor train decomposition

Sozykin K., Rybin N., Chertkov A. и др., Physical Review B: Condensed Matter and Materials Physics 2026 Vol. 113 No. 22 Article 224111

Добавлено: 22 июля 2026 г.

Ценностные основания классической и восстановительной медиации: сравнительный анализ двух моделей посредничества

Грудников Н. С., Пастухова Е. Г., Психология и право 2026 Т. 16 № 2 С. 198–214

Контекст и актуальность. Медиация является одной из распространенных форм разрешения конфликтов и имеет свои уникальные принципы. Восстановительное правосудие, как новая парадигма в уголовной юстиции, использует медиацию в качестве одной из форм реализации, но адаптирует ее под собственные идеи. Цель. Выявить различия между ценностными основаниями классической и восстановительной медиации. Гипотеза. Восстановительная медиация как одна из форм ...

Добавлено: 22 июля 2026 г.

Media Branding: Modifying Digital Communications of IT Companies. Conference Paper. April 2025.

Тюркин М. В., Ilyina I., Zhuravleva O. и др., [б.и.], 2025.

Добавлено: 20 июля 2026 г.

Аналитический обзор экспериментальных исследований обыденных моральных суждений о войне

Гаджиев А., Социология: методология, методы, математическое моделирование 2026 Т. 35 № 2 С. 131–163

В статье представлен обзор экспериментальных исследований, сопоставляющих обыденные моральные суждения о войнах с нормативными моделями (международным гуманитарным правом и теорией справедливой войны). На основе анализа работ данного направления, предложена типология исследовательских планов по четырем ключевым параметрам: объект оценки, степень реалистичности сценария, способ предъявления условий и роль нормативных моделей в дизайне. Предложенная типология выступает аналитическим инструментом, ...

Добавлено: 20 июля 2026 г.

«Научная элита» как проблема и понятие

Качанов Ю. Л., Социологический журнал 2026 Т. 32 № 2 С. 59–77

«Научная элита» как эвристический принцип объяснения и аналитическая схема несёт в себе идею значительного превосходства малого количества «выдающихся учёных». В статье вводится понятие пространства науки как многомерного распределения агентов производства научного знания по соотносительным позициям. Это пространство различий выступает как среда, в которой разворачивается научная конкуренция, а также символическое и политическое противоборство за ресурсы и ...

Добавлено: 18 июля 2026 г.

WSI-GT: Pseudo-Label Guided Graph Transformer for Whole-Slide Histology

Михайлов И. А., Machine Learning and Knowledge Extraction 2026 Vol. 8 No. 1 Article 8

Whole-slide histology images (WSIs) can exceed 100 k × 100 k pixels, making direct pixel-level segmentation infeasible and requiring patch-level classification as a practical alternative for downstream WSI segmentation. However, most approaches either treat patches independently, ignoring spatial and biological context, or rely on deep graph models prone to oversmoothing and loss of local tissue ...

Добавлено: 16 июля 2026 г.

On the construction of Barnes–Wall lattices and their application in cryptography

Кунинец А. А., Малыгина Е. С., Leevik A. G. и др., Journal of Computer Virology and Hacking Techniques 2026 No. 22 Article 62

Добавлено: 16 июля 2026 г.

Shared environment, shared mechanisms: comparing pathways to mental health outcomes among indigenous youth and youth with other ethnic backgrounds

Arina Bukina, Ерицян К. Ю., Антонова Н. А. и др., Frontiers in Psychology 2026 Vol. 17 Article 1824428

Добавлено: 15 июля 2026 г.

Отходничество 2020-х гг.: что изменилось за десять лет (на примере Нижегородской области)

Позаненко А. А., Социологические исследования 2026 № 6 С. 64–71

Вследствие сохраняющихся территориальных социально-экономических диспропорций часть жителей российских сел и малых городов уезжают на продолжительный срок на работу без перемены места жительства. Такая внутренняя временная трудовая миграция некоторыми исследователями именуется «отходничеством», а мигранты – «отходниками» – по аналогии с дореволюционной и раннесоветской миграцией крестьян на заработки в город. В начале 2010 х гг. при участии ...

Добавлено: 15 июля 2026 г.

Tencent и Open Source. Как относится к открытому ПО самый дорогой бренд Китая?

Силаков Д. В., Системный администратор 2026 № 5 С. 46–51

В предыдущей статье про Open Source в КНР [1] мы рассказали про Alibaba – крупную корпорацию, занимающую тридцатое место в рейтинге самых значимых мировых брэндов за 2025 год [2]. Место почетное, но не первое среди китайских компаний – на тринадцатом месте расположилась Tencent, разработчик WeChat и ряда других продуктов, широко используемых нашими восточными соседями. Tencent ...

Добавлено: 14 июля 2026 г.

2026 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)

IEEE, 2026.

Добавлено: 13 июля 2026 г.

Mathematical Optimization Theory and Operations Research, 25th International Conference, MOTOR 2026 Irkutsk, Russia, July 6–11, 2026 Proceedings

Switzerland: Springer, 2026.

Добавлено: 12 июля 2026 г.

Proceedings of the International Science Conference “APPLIED RESEARCH. GLOBAL SOLUTIONS” (May 6, 2026). Istanbul. Turkey. Part 2.

Scientific publishing house Infinity, 2026.

Добавлено: 12 июля 2026 г.

Задачи бесконечной регулярной реализуемости

Шиманогов И. Н., Вялый М. Н., Дискретный анализ и исследование операций 2025 Т. 32 № 4(166) С. 213–230

Хорошо изученным классом алгоритмических задач являются задачи регулярной реализуемости: проверка непустоты пересечения регулярного языка с заданным языком. Данная задача имеет естественную алгебраическую интерпретацию: проверка принадлежности элемента булевой алгебры ядру определенного гомоморфизма. Это мотивирует рассмотрение аналогичной задачи бесконечной регулярной реализуемости: проверка бесконечности пересечения регулярного языка с заданным. В работе рассматриваются задачи регулярной реализуемости для разрешимых языков ...

Добавлено: 12 июля 2026 г.

International Academic Conference. Proceedings of the Scientific Forum “Modern Science: Theory and Practice” (April 22, 2026). Belgrade, Serbia. Part 3.

Scientific publishing house Infinity, 2026.

Добавлено: 10 июля 2026 г.

Образ старшего поколения в российском цифровом дискурсе о семье

Соколова Е. Н., Григорьева М. В., Знак: проблемное поле медиаобразования 2026 № 1(59) С. 92–101

Статья анализирует дискурсивные репрезентации образов бабушек и дедушек в пользовательском контенте о семье российского сегмента социальных медиа. На материале корпуса более двух миллионов публичных сообщений за сентябрь 2023 - сентябрь 2024 годов, собранного через Brand Analytics, выделен подкорпус из 82 138 постов с упоминанием старшего поколения. Применены автоматизированное тематическое моделирование (LDA), кластерный анализ, описательная статистика ...

Добавлено: 30 июня 2026 г.

Подход к автоматическому распознаванию эмоций в транскрипциях речи

Двойникова А. А., Кондратенко К. О., Известия высших учебных заведений. Приборостроение 2023 Т. 66 № 10 С. 818–827

Аннотация. Исследован актуальный в различных областях вопрос распознавания эмоций в транскрипциях речи. Проанализировано влияние методов предобработки (удаление стоп-слов, лемматизация, стемминг) на точность распознавания эмоций в текстовых данных на русском и английском языках. Для проведения экспериментальных исследований использовались орфографические транскрипции диалогов из многомодальных корпусов RAMAS и CMU-MOSEI на русском и английском языке соответственно. Аннотирование этих корпусов ...

Добавлено: 25 апреля 2026 г.

Индекс актуальности темы профессионального выгорания

Завертяева М. А., Найденова Ю. Н., Киреечева А. Д., Социальная психология и общество 2026 Т. 17 № 1 С. 166–182

Контекст и актуальность. Профессиональное выгорание является значимой социальноэкономической проблемой, поэтому существует потребность в его регулярном мониторинге. Традиционно применяемые для измерения выгорания опросники трудозатратны и нерегулярны, что не позволяет использовать их для мониторинга проблемы на макроуровне. По аналогии с индексами на основе медиа в смежных областях настоящая работа рассматривает интенсивность упоминаний выгорания как индикатор общественной релевантности ...

Добавлено: 9 апреля 2026 г.

Эко-реальность и эко-образ российских регионов в пабликах социальной сети «В Контакте»

Немировская А. В., Муничкина О. П., Вестник Института социологии 2026 Т. 17 № 1 С. 183–208

В статье рассматривается медиа-репрезентация экологических проблем в шести российских регионах через призму региональных пабликов в социальной сети «ВКонтакте» с официальным и неофициальным статусом, функционирующих как онлайн-СМИ. На основе анализа контента новостных пабликов в «ВКонтакте» из шести российских регионов, включая как экологически благополучные, так и неблагополучные, рассмотрено, как экологические проблемы освещаются в данных субъектах РФ, и ...

Добавлено: 1 апреля 2026 г.