Exploring Evaluation Techniques in Controlled Text Generation: A Comparative Study of Semantics and Sentiment in ruGPT3large-Generated and Human-Written Movie Reviews

Anastasia Margolina; A. Kolmogorova

doi:10.28995/2075-7182-2023-22-1082-1090

Публикации

?

Exploring Evaluation Techniques in Controlled Text Generation: A Comparative Study of Semantics and Sentiment in ruGPT3large-Generated and Human-Written Movie Reviews

P. 1082–1090.

Anastasia Margolina, Колмогорова А. В.

В статье предлагается новая стратегия оценки контролируемой генерации текста с тональностью в качестве атрибута. Наш подход включает автоматический анализ тональности (ruBERT) и тематическое моделирование (BERTopic). Эти инструменты применяются к параллельному корпусу, состоящему из пар “сгенерированный отзыв - реальный отзыв”. Модель используемая для оценки - ruGPT3Large, которая была ранее дообучена на собранных с Кинопоиска отзывах на фильмы с тональностью “вшитой” в затравку. Результаты анализа демонстрируют, что использованные методы предлагают более полное понимание преимуществ и ограничений в контексте семантики и эмоциональной окраски языковой модели. Кроме того, в статье применяются такие метрики, как BERTscore и self-BLEU, для дополнительной оценки сгенерированного текста. Наша методология представляет новый подход для оценки качества генерируемого текста и может дать основу для будущих исследований в этой области. Ключевые слова: контролируемая генерация текста, стратегия оценки качества, тематическое моделирование, сентимент-анализ, кинорецензии.

Язык: английский

DOI

Ключевые слова: sentiment analysis сентимент анализ

ПУБЛИКАЦИЯ ПОДГОТОВЛЕНА ПО РЕЗУЛЬТАТАМ ПРОЕКТА:

Текст как Big Data: моделирование конвергентных процессов в языке и речи цифровыми методами (2023)

В книге

Компьютерная лингвистика и интеллектуальные технологии. По материалам ежегодной международной конференции «Диалог». Вып. 22. Дополнительный том

Вып. 22: Дополнительный том. , [б.и.], 2023.

Онлайн-дискурс о демографической политике Китая: методологические аспекты анализа постов в социальной сети Weibo

Бочарова А. П., Денисов И. Е., Зуенко И. Ю., Вестник Санкт-Петербургского университета. Востоковедение и африканистика 2025 Т. 17 № 2 С. 366–377

Статья посвящена анализу восприятия современным китайским обществом недавних изменений в демографической политике КНР, в соответствии с которыми ограничения на количество детей в семье смягчены сначала до двух (2015 г.), а затем до трех детей в семье (2021 г.). Демографическая политика — один из наиболее сложных и вместе с тем значимых аспектов социальной политики КНР с ...

Добавлено: 19 февраля 2026 г.

Changes in the UK leading media's portrayal of China during the Covid-19 pandemic and the special military operation

Балакина Ю. В., Инь Ц., Известия Саратовского университета. Новая серия. Серия: Филология. Журналистика 2025 Vol. 25 No. 2 P. 229–236

Добавлено: 20 января 2026 г.

Сопоставительный анализ уникальных впечатлений американских туристов о мемориале Линкольну в доковидный и постковидный периоды

Смольянина Е. А., Морозова И. С., Харитонова Н. В., Географический вестник 2025 № 4 (75) С. 162–177

никальное туристское впечатление является одним из главных компонентов туристкой де-ятельности. Однако в отечественной и западной науке оно не изучено. Это обусловило цель данного исследова-ния –выявить особенности уникальных впечатлений в онлайн-отзывах американских туристов о мемориале Лин-кольну в доковидный и постковидный периодына туристическом сайте TripAdvisor. В основе используемой ме-тодологии лежит идея репрезентации уникальных впечатлений в единичных словах. ...

Добавлено: 7 января 2026 г.

Влияние новостного сентимента на российский фондовый рынок

Макеева Н. М., Наволоцкая П. А., Искяндяров Р. Р. и др., Вопросы экономики 2026 № 6 С. 135–154

Проанализированы информационная ценность и прогнозная способность сентимента частных инвесторов, сформированного под воздействием новостных потоков и публикаций в социальных медиа, для динамики российского фондового рынка. Оценена информационная ценность и прогнозная способность индикаторов сентимента, рассчитанных с использованием модели FinBERT, на ключевые показатели фондового рынка: доходность акций, объем торгов, волатильность и индекс МосБиржи. Эмпирическая база исследования включает данные ...

Добавлено: 2 декабря 2025 г.

Императивный интернет-комментарий как особый жанр конфликтной интернет-коммуникации

Шульгинов В. А., Жанры речи 2025 Т. 20 № 3(47) С. 327–336

В статье рассматривается императивный интернет-комментарий как особый жанр конфликтного интернет-дискурса. Исследование проводилось на базе двух сообществ социальной сети «ВКонтакте», различающихся по структуре социальных связей: вертикального типа (официальное сообщество «ВКонтакте с авторами») и горизонтального типа («Новости звёзд шоу-бизнеса»). С применением автоматических методов сбора и анализа данных было установлено, что данный тип текста демонстрирует устойчивую негативную тональность ...

Добавлено: 12 октября 2025 г.

Representation of the Post-Soviet Countries in the Global Online Information Space in 2020–2021: Frequency of Mention, Media Dynamics, Mood Characteristics

Шариков А. В., , in: Internet in the Post-Soviet Area: Technological, Economic and Political Aspects.: Cham: Springer, 2023. Ch. 1 P. 7–46.

Добавлено: 6 февраля 2025 г.

Представленность России в британских онлайн-источниках в 2022 г.

Шариков А. В., Вестник Российского университета дружбы народов. Серия: Литературоведение, журналистика 2024 Т. 29 № 3 С. 534–550

Выявлены особенности репрезентации россии в британских онлайн-источниках в 2022 г., когда началась специальная военная операция на украине. автор использовал статистический анализ на основе мониторинговой системы factiva: база данных содержит около 4,5 млн текстов, опубликованных на 416 британских онлайн-ресурсах с 1 января по 31 декабря 2022 г. Для определения тональности сообщений использовался сентимент-анализ (версия системы factiva). ...

Добавлено: 5 февраля 2025 г.

О соотношении сообщений позитивной и негативной тональности на русскоязычных информационных онлайн-ресурсах

Шариков А. В., Потапова В. В., Вестник Академии медиаиндустрии 2023 Т. 34 № 2 С. 48–64

В статье приводятся результаты исследования, проведенного в НИУ «Высшая школа экономики» на корпусе текстов мониторинговой системы Factiva, опубликованных в 2020 году. Цель исследования - выявить количественное соотношение между публикациями позитивной и негативной тональности на русскоязычных онлайн-ресурсах в сравнении с публикациями зарубежных изданий на иностранных языках. Обнаружен заметный сдвиг русскоязычных материалов в негативную тональность. Обнаружена связь ...

Добавлено: 5 февраля 2025 г.

Калейдоскоп чувств: исследование эмоциональности любительской массовой литературы (на материале русскоязычной электронной базы фанфикшн)

Максименко П. И., В кн.: «Цифра» в социально-гуманитарных исследованиях: метод, поле, реальность : материалы научной конференции молодых ученых.: Иркутск: Издательство ИГУ, 2024. С. 89–95.

Описываются результаты применения сентимент-анализа к текстам, вхо-дящим в русскоязычную электронную базу фанфикшн, которая включает в себя более 135 тыс. работ, опубликованных на специализированном ресурсе «Книга Фанфиков» (ficbook.net). Дан-ные, полученные в результате применения моделей анализа тональности RuBERT и Dostoevsky, сопоставляются с метаданными о текстах, входящих в базу, в частности с информацией о тематических тегах, присвоенных работам ...

Добавлено: 29 ноября 2024 г.

Fear and Loathing in Russian Literature: A Case of Emotion Annotation of Short Stories of the 20th Century

Anna Moskvina, Margarita Kirina, , in: 27th International Conference, IMS 2024, St. Petersburg, Russia, June 24–26, 2024, Selected Papers. Internet and Modern Society. Human-Computer Communication. CCIS, volume 2534Vol. 2534.: Springer, 2025. P. 113–129.

Добавлено: 29 ноября 2024 г.

Партийно-политическая динамика в Норвегии как фактор российско-норвежских отношений

Чистиков М. Н., Полис. Политические исследования 2024 № 4 С. 38–55

В научной литературе хорошо изучены системные факторы, влияющие на российско-норвежские отношения, тогда как внутриполитическим причинам трансформации уделяется недостаточно внимания.Эмпирическая база исследования состоит из текстов дебатов в норвежском парламенте и программных документов норвежских партий. В рамках статьи был проведен количественный и качественный анализ собранных данных. Основным методом количественного анализа стал таргетированный сентимент-анализ. В результате количественного анализа ...

Добавлено: 2 августа 2024 г.

Identifying American tourists’ unique experiences from the Lincoln Memorial

Смольянина Е. А., Морозова И. С., Kharitonova N., Географический вестник 2024 No. 2(69) P. 150–164

Путешественники делятся своими впечатлениями в онлайн-отзывах на туристических сайтах, определяя восприятие и планирование поездок других туристов. Туристические онлайн-отзывы являются надежными источниками предоставления информации в свободной форме, позволяющей делиться искренними впечатлениями о достопримечательностях. Существующие работы анализируют туристические отзывы с целью составления списка самых популярных достопримечательностей и их отличительных черт, а также для оценки уровня сервиса в ...

Добавлено: 18 июля 2024 г.

Alternative method sentiment analysis using emojis and emoticons

Surikov A., Evgeniia Egorova, Procedia Computer Science 2020 Vol. 178 P. 182–193

Our research aims to develop an alternative method for analyzing the tonality of the texts. Most of the traditional methods for determining tonality classes are based on text analysis and ignore various emotional indicators that users actively used in social networks. Therefore, it improves the quality of predicting the tonality of the class. The study ...

Добавлено: 15 мая 2024 г.

Perception of AI-generated art: text analysis of online discussions

Босоногов С. Д., Суворова А. В., Journal of Mathematical Sciences 2024 Vol. 285 P. 1–13

Добавлено: 4 февраля 2024 г.

Исследовательский потенциал корпуса советских песен: эмоциональная тональность и география песенных текстов через призму компьютерных технологий

Колмогорова А. В., Зарембо В. С., Ткачева Е. С. и др., В кн.: Лингвистическая семантика в пространственном измерении: Словарь. Дискурс. Корпус.: Екатеринбург: Кабинетный ученый, 2024. Гл. 10 С. 423–445.

Цель данного исследования – описать характеристики текста популярной советской песни как лингвоидеологического феномена. В качестве материала используется корпус советской песни, собранный исследовательской группой. В фокусе данной публикации – две характеристики: изменения эмоциональной тональности популярных песен, выпускавшихся на граммпластинках фирмой «Мелодия» в разные периоды советской эпохи, и города, упоминавшиеся в песнях с 1950 по 2000 гг. ...

Добавлено: 10 декабря 2023 г.

О прошлом, но в разное время: компьютерный анализ текстов учебников по истории СССР/России для шести поколений студентов

Колмогорова А. В., Колмогорова П. А., Куликова Е. Р., Вестник Томского государственного университета. Филология 2024 № 89 С. 73–103

В статье анализируются тексты о семи периодах российской истории в трех вузовских учебниках: 1946, 1983 и 2006 годов. С помощью методов компьютерного анализа текстовых данных выявляется специфика поколенческого нарратива об истории страны в указанные три временных периода. Результаты демонстрируют, что тексты разных лет имеют различных эмоциональный «размах», разные тематические доминанты, которые связаны с «духом» соответствующего ...

Добавлено: 10 декабря 2023 г.