Сравнение методов автоматической разметки речевых формул в русскоязычном интернет-дискурсе: пилотное исследование

?

Сравнение методов автоматической разметки речевых формул в русскоязычном интернет-дискурсе: пилотное исследование

С. 420–429.

Попова Т. И., Масленикова А. С.

Настоящее исследование посвящено разработке и сравнению методов автоматической разметки речевых формул в корпусе русскоязычных интернет-комментариев. Речевые формулы представляют собой класс устойчивых неоднословных единиц, выражающих эмоциональную реакцию в диалоге. Материалом исследования послужил корпус из 10 000 комментариев (157 261 токен), собранных из пяти Telegram-каналов. Формальный поиск по словнику из 437 единиц дал точность (precision) 21%. Для повышения точности были разработаны три метода: классификация с помощью Random Forest (точность 56%), синтаксическая фильтрация на основе dependency parsing (точность 73,3%, полнота 8,7%) и фильтрация по пунктуационному оформлению (точность 76,4%, полнота 74,0%). Анализ показал, что синтаксические парсеры систематически ошибаются при обработке междометных единиц: 68,5% истинных речевых формул получили метку advmod вместо корректной ROOT. Метод пунктуационной фильтрации показал лучший результат, повысив точность в 3,64 раза относительно формального поиска, служившего baseline. Ключевой вывод исследования заключается в том, что для лингвистических явлений с четкими формальными маркерами простые rule-based методы могут превосходить машинное обучение, особенно при ограниченном объёме размеченных данных.

Язык: русский

Полный текст

DOI

Текст на другом сайте

В книге

Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной международной конференции «Диалог». Выпуск 24.

Issue 24. , M.: Max press, 2026.

К ранжированию значимости факторов дестабилизации в странах Азии и Африки методами машинного обучения

Коротаев А. В., Черноморченко И. Ю., Медведев И. А., Восток. Афро-азиатские общества: история и современность 2026 № 3 С. 117–130

В статье методами машинного обучения проранжированы по их значимости факторы крупномасштабной вооруженной и невооруженной дестабилизации в странах Азии и Африки. Показано, что страны Африки в большей мере уязвимы к вооружённой дестабилизации (вплоть до полномасштабных гражданских войн), а страны Азии – к массовой невооружённой (антиправительственные демонстрации, массовые беспорядки, политические забастовки и т. п.). Ключевыми факторами вооружённой ...

Добавлено: 21 июня 2026 г.

Artificial intelligence and digital twins for failure prediction in data center cooling systems: a comprehensive literature review (2018–2026)

Butorova A., Bobakov V., Sergeev A. и др., European Physical Journal: Special Topics 2026 P. 1–19

Добавлено: 10 июня 2026 г.

Влияние шизофрении на лексический уровень языка

Унтила К. В., Тасенко О. А., В кн.: Современная лингвистика: ключ к диалогу. Труды и материалы IV Казанского международного лингвистического саммита.Т. 1: СОВРЕМЕННАЯ ЛИНГВИСТИКА: КЛЮЧ К ДИАЛОГУ.: Каз.: Издательство Казанского университета, 2024. С. 221–224.

Шизофрения – это хроническое психическое расстройство, которое выражается как комбинация психотических симптомов – таких как галлюцинации, бред и дезорганизация когнитивных функций. У многих пациентов с диагнозом шизофрения обнаруживаются нарушения речи. Для исследования были отобраны рассказы об истории из жизни из корпуса 3D. В качестве личных историй были собраны ответы на вопросы «Какой самый лучший или запоминающийся ...

Добавлено: 8 июня 2026 г.

Proceedings of the 43rd International Conference on Machine Learning (ICML 2026)

Seul: PMLR, 2026.

Добавлено: 4 июня 2026 г.

От неизвестности к прозрачности: обзор технологий объяснимого ИИ (XAI)

Авдошин С. М., Песоцкая Е. Ю., Информационные технологии 2026 Т. 32 № 4 С. 185–194

С развитием ИИ, и в особенности глубокого обучения, появились модели, способные давать крайне точные прогнозы. Однако их внутренняя логика остается трудной для понимания — и это серьезная проблема, особенно в сферах, где от корректности алгоритма зависят критиче ски важные решения. Одним из перспективных путей ее решения считается направление Explainable Artificial Intelligence (XAI) — разработка подходов, позволяющих прояснять ...

Добавлено: 8 мая 2026 г.

Современные методы анализа временных рядов в мониторинге и прогнозировании состояния оборудования для механизированной добычи

Незнанов А. А., Глушко А. А., Овчинников С. и др., В кн.: Интеллектуальный анализ данных в нефтегазовой отрасли.: М.: ООО «Геомодель Развитие», 2024. С. 140–143.

С развитием систем мониторинга мы получили возможность собирать ключевые показатели работы устройств в процессе механизированной добычи. Каждый день генерируется огромное количество телеметрии, которая пройдя процесс гармонизации и трансформации может быть использована для прогнозирования состояния оборудования. В докладе представлен обзор и произведён отбор современных математических методов и программных реализации инструментов анализа многомерных нерегулярных временных рядов для ...

Добавлено: 29 апреля 2026 г.

Machine Learning Approach to Anticancer Activity Prediction of Transition-Metal Complexes Based on a Large-Scale Experimental Database

Krasnov L., Malikov D., Kiseleva M. и др., Journal of Medicinal Chemistry 2026 Vol. 69 No. 8 P. 8838–8851

Добавлено: 23 апреля 2026 г.

LSTM-модель потребления тепловой энергии в многоэтажном жилом здании

Ершов И. А., Системная инженерия и инфокоммуникации 2025 № 4 С. 11–14

Теплопотребление жилых зданий представляет собой стохастический ряд, создание нейросетевой модели для которого необходимо для проектирования регуляторов тепловой энергии. В статье модель разработана с применением "длинной цепи элементов краткосрочной памяти" (LSTM, Long Short-Term Memory). Высокая точность воспроизведения рядов достигнута обучением модели на наборе данных города Томска 2013-2023 г.г. При моделировании учтены характеристики зданий и температура наружного воздуха. ...

Добавлено: 22 апреля 2026 г.

Алгоритм анализа новостной информации для принятия экономических решений

Чудинова О. С., Первицкая Л. А., Раменская А. В., Индустриальная экономика 2026 № 1 С. 65–78

Статья посвящена разработке алгоритма анализа новостной информации методами машинного обучения, реализованными в библиотеках Python. Обоснование выбора инструментов, применяемых на каждом этапе алгоритма, осуществляется с помощью расчета метрик качества решения соответствующих задач машинного обучения. Результаты работы алгоритма представлены классификацией региональных новостей, собранных за период с августа 2024 года по июнь 2025 года, по отраслям экономики и ...

Добавлено: 20 апреля 2026 г.

Modeling cosolvent effects on solubility in supercritical CO2 using data-driven approaches

Makarov D. M., Каликин Н. Н., Gurikov P. и др., Journal of Supercritical Fluids 2026 Vol. 235 Article 106979

Добавлено: 19 апреля 2026 г.

Эффективность применения прогнозов волатильности в активных торговых стратегиях институциональных инвесторов на российском рынке акций

Лысенок Н. И., Фундаментальная и прикладная математика 2026 Т. 26 № 3 С. 33–42

Исследование посвящено оценке влияния прогнозов реализованной волатильности на результаты активных торговых стратегий на российском рынке акций. На выборке 17 ликвидных акций за 2014-2026 гг. построена гибридная прогнозная модель, объединяющая HAR-J и градиентный бустинг; её преимущество над базовой HAR-J подтверждено тестом Дибольда-Мариано (p < 0,001). Шесть направленных стратегий трёх категорий протестированы с тремя механизмами интеграции прогнозов и без них. ...

Добавлено: 17 апреля 2026 г.

Особые экономические зоны Российской Федерации: моделирование решений потенциальных резидентов и процесса их генерации

Плесовских А. Е., Journal of Applied Economic Research 2023 Т. 22 № 2 С. 323–354

В современных исследованиях широко обсуждается роль особых экономических зон в стимулировании экономического роста и развития России, формировании необходимых инвестиционных потоков и повышении инновационного потенциала страны за счет расширения производства продукции в высокотехнологичных отраслях экономики с высокой добавленной стоимостью. Цель исследования – моделирование процесса генерации резидентов и детерминация количественных факторов, оказывающих статистически значимый эффект на среднегодовой ...

Добавлено: 13 апреля 2026 г.

Опыт генерации оценок эмоциональной валентности и возбуждения слов на основе символьно-уровневой CNN

Люсин Д. В., Валуева Е. А., Сысоева Т. А., В кн.: Психология познания: Материалы Всероссийской научной конференции, ЯрГУ, Институт психологии РАН, 5–6 декабря 2025 г.: Институт психологии РАН, 2026. С. 310–314.

Эмоциональная окраска слов широко используются в различных академических и прикладных исследованиях, от анализа текстов до понимания когнитивных процессов. Актуальной задачей является создание объёмных датасетов с оценками слов по ряду эмоциональных параметров. Современные методы машинного обучения, основанные на семантической близости слов, извлекаемой из текстовых корпусов, демонстрируют высокие корреляции с человеческими оценками, однако иногда наблюдаются существенные расхождения. ...

Добавлено: 10 апреля 2026 г.

Нейросетевые инструменты в арсенале вузовского преподавателя

Федоров А. О., Вакку Г. В., Лебедева С. Э., Галактика медиа: журнал медиа исследований 2026 Т. 8 № 2 С. 163–182

С увеличением объемов данных преподаватель вуза может потратить годы на обработку и систематизацию информации. Персонализированная помощь, рекомендации по контенту, сбор данных для обзоров литературы и оформление библиографических ссылок укрепляют роль искусственного интеллекта как эффективного нейросетевого инструмента научной коммуникации. В данной статье рассматриваются практические примеры использования таких инструментов, как Elicit, SciSpace, Consensus, Undermind и Paperfinder, для упрощения ...

Добавлено: 7 апреля 2026 г.

Применение ML в целях повышения помехоустойчивости сигналов

Ефремов А. М., Портной С. Л., Волошин А. Д., Первая миля 2025 № 8 С. 20–28

Выполнен комплексный обзор методов машинного обучения (ML), применяемых для повышения устойчивости сигнала к помехам в каналах связи. Бурное развитие поколений беспроводной связи, активная разработка концепции 6G предъявляют высокие требования к задержке, скорости и надежности передачи данных. Традиционные подходы к защите от помех, основанные на строгих аналитических моделях, зачастую не справляются с хаотичной природой плотных гетерогенных ...

Добавлено: 4 апреля 2026 г.

Replacing Criterion of Creativity with Criterion of Investment for Results Created by Artificial Intelligence

Пакшин П. К., Legal Issues in the Digital Age 2026 Vol. 7 No. 1 P. 32–48

Искусственный интеллект выполняет значимую функцию в процессе автоматизации, минимизируя операционное участие человека в таких сферах, как медицина, искусство и юриспруденция. Несмотря на исторически тесную взаимосвязь искусства и технологий, именно генеративный искусственный интеллект расширил потенциал для творческой деятельности. Существенным катализатором этого процесса стало распространение предобученных систем искусственного интеллекта, интенсифицировавших развитие технологий в области обработки естественного языка ...

Добавлено: 31 марта 2026 г.

Efficient Incorporation of New Interactions in Graph Recommenders via Folding-In

Юсупов В. А., Sukhorukov N., Фролов Е. П., User Modelling and User-Adapted Interaction 2026 Vol. 36 Article 2

Графовые системы рекомендаций стали мощной парадигмой для персонализированных рекомендаций. Однако их зависимость от полного переобучения модели для интеграции новых пользователей или новых взаимодействий создаёт барьеры для масштабирования. В реальных системах рекомендаций эта задача становится невыполнимой из-за чрезмерных затрат времени и ресурсов. Чтобы преодолеть это ограничение, мы предлагаем быстрый и эффективный метод обновления графовых рекомендательных моделей ...

Добавлено: 15 марта 2026 г.

Кластеризация паттернов потребления электроэнергии умного дома на основе ансамблевых методов машинного обучения

Мальцева С. В., Бериков В. Б., Кладов Д. Е. и др., В кн.: Информатика и прикладная математика: Материалы X Международной научно-практической конференции (08.10 - 11.10.2025 г.)Т. 1: Сборник материалов часть 1.: Алматы: Институт информационных и вычислительных технологий КН МНВО РК, 2025. С. 227–232.

В работе рассматривается задача кластеризации паттернов потребления для частного домохозяйства. Для кластеризации суточных профилей нагрузки разработан и применен ансамблевый алгоритм на основе метрики Вассерштейна. Предложенный подход позволяет выделить типичные сценарии энергопотребления, интерпретировать поведение потребителя. Приводятся результаты вычислительных экспериментов на реальных данных. ...

Добавлено: 3 марта 2026 г.

Определение фолликулярного резерва яичников по данным ультразвукового исследования на основе методов машинного обучения

Мошкин А. С., Лапутин Ф. А., Сидоров И. В., DIGITAL DIAGNOSTICS 2024 Т. 5 № S1 С. 40–42

Обоснование. Овариальный резерв отражает способность женщины к успешной реализации репродуктивной функции. Оценка овариального резерва является актуальной задачей для клинической практики [1] и важна при проведении научных исследований. Использование методов компьютерной обработки диагностических изображений способно ускорить и облегчить выполнение рутинных задач в клинической практике. Их применение при ретроспективном анализе данных в научных целях позволяет повысить объективность ...

Добавлено: 21 февраля 2026 г.