• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • A
  • A
  • A
  • A
  • A
Обычная версия сайта
  • RU
  • EN
  • Национальный исследовательский университет «Высшая школа экономики»
  • Публикации ВШЭ
  • Статьи
  • Automatic Morpheme Segmentation for Russian: Can an Algorithm Replace Experts?
  • RU
  • EN
Расширенный поиск
Высшая школа экономики
Национальный исследовательский университет
Приоритетные направления
  • бизнес-информатика
  • государственное и муниципальное управление
  • гуманитарные науки
  • инженерные науки
  • компьютерно-математическое
  • математика
  • менеджмент
  • право
  • социология
  • экономика
по году
  • 2027
  • 2026
  • 2025
  • 2024
  • 2023
  • 2022
  • 2021
  • 2020
  • 2019
  • 2018
  • 2017
  • 2016
  • 2015
  • 2014
  • 2013
  • 2012
  • 2011
  • 2010
  • 2009
  • 2008
  • 2007
  • 2006
  • 2005
  • 2004
  • 2003
  • 2002
  • 2001
  • 2000
  • 1999
  • 1998
  • 1997
  • 1996
  • 1995
  • 1994
  • 1993
  • 1992
  • 1991
  • 1990
  • 1989
  • 1988
  • 1987
  • 1986
  • 1985
  • 1984
  • 1983
  • 1982
  • 1981
  • 1980
  • 1979
  • 1978
  • 1977
  • 1976
  • 1975
  • 1974
  • 1973
  • 1972
  • 1971
  • 1970
  • 1969
  • 1968
  • 1967
  • 1966
  • 1965
  • 1964
  • 1963
  • 1958
  • еще
Тематика
Новости
1 июля 2026 г.
Ученые НИУ ВШЭ выяснили, кто и почему в России питается вне дома
Около трети населения (31,3%) практически не едят вне дома и не покупают готовую еду. Ядро активных потребителей — тех, кто питается вне дома или покупает готовое почти ежедневно или несколько раз в неделю, — составляет всего около 9%. Таковы результаты исследования, проведенного Институтом социальной политики НИУ ВШЭ. Как отмечают авторы, питание вне дома в России перестало быть маркером высокого статуса.
30 июня 2026 г.
Аспирантка НИУ ВШЭ получила премию за выдающуюся научную статью
Международное научное общество по коллективному выбору и экономике благосостояния — Society for Social Choice and Welfare (SSCW) — присудило награду для молодых исследователей Ангелине Юдиной, аспирантке и преподавателю департамента математики ФЭН, младшему научному сотруднику Международного центра анализа и выбора решений НИУ ВШЭ. Ученые отметили ее статью, посвященную решениям задачи выбора наилучших альтернатив на основании результатов их попарных сравнений.
30 июня 2026 г.
«Я хотела бы, чтобы мои исследования помогали делать мир спокойнее и лучше»
Какую бы задачу ни решала младший научный сотрудник Лаборатории методов анализа больших данных Института искусственного интеллекта и цифровых наук ФКН ВШЭ Сараа Али, она думает, какую пользу она может принести людям. О своей большой семье, диагностике трехфазных двигателей и мечте построить на родине детский приют она рассказала проекту «Молодые ученые Вышки».

 

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!

Публикации
  • Книги
  • Статьи
  • Главы в книгах
  • Препринты
  • Верификация публикаций
  • Расширенный поиск
  • Правила использования материалов
  • Наука в ВШЭ

?

Automatic Morpheme Segmentation for Russian: Can an Algorithm Replace Experts?

Journal of Language and Education. 2024. Vol. 10. No. 4. P. 71–84.
Morozov D., Garipov T., Ляшевская О. Н., Savchuk S., Иомдин Б. Л., Glazkova A.

Introduction: Numerous algorithms have been proposed for the task of automatic morpheme segmentation of Russian words. Due to the differences in task formulation and datasets utilized, comparing the quality of these algorithms is challenging. It is unclear whether the errors in the models are due to the ineffectiveness of algorithms themselves or to errors and inconsistencies in the morpheme dictionaries. Thus, it remains uncertain whether any algorithm can be used to automatically expand the existing morpheme dictionaries.

Purpose: To compare various existing algorithms of morpheme segmentation for the Russian language and analyze their applicability in the task of automatic augmentation of various existing morpheme dictionaries.

Results: In this study, we compared several state-of-the-art machine learning algorithms using three datasets structured around different segmentation paradigms. Two experiments were carried out, each employing five-fold cross-validation. In the first experiment, we randomly partitioned the dataset into five subsets. In the second, we grouped all words sharing the same root into a single subset, excluding words that contained multiple roots. During cross-validation, models were trained on four of these subsets and evaluated on the remaining one. Across both experiments, the algorithms that relied on ensembles of convolutional neural networks consistently demonstrated the highest performance. However, we observed a notable decline in accuracy when testing on words containing unfamiliar roots. We also found that, on a randomly selected set of words, the performance of these algorithms was comparable to that of human experts.

Conclusion: Our results indicate that although automatic methods have, on average, reached a quality close to expert level, the lack of semantic consideration makes it impossible to use them for automatic dictionary expansion without expert validation. The conducted research revealed that further research should be aimed at addressing the key identified issues: poor performance with unknown roots and acronyms. At the same time, when a small number of unfamiliar roots can be assumed in the test dataset, an ensemble of convolutional neural networks should be utilized. The presented results can be used in the development of morpheme-oriented tokenizers and systems for analyzing the complexity of texts.

Научное направление: Филология и лингвистика Компьютерные науки
Язык: английский
Полный текст
DOI
Текст на другом сайте
Ключевые слова: машинное обучениеnatural language processingавтоматическая обработка естественного языкаconvolutional neural networksmorphological analysisморфемный анализсверточные нейронные сетиморфология русского языка machine learningautomatic morpheme segmentationRussian language morphologydictionary expansionexpert-level performanceавтоматическая морфемное членениерасширение словарякачество экспертного уровня
Похожие публикации
ПИНДАР. ПИФИЙСКАЯ ОДА 9.33–43: О ЧЕМ ГОВОРИТ ХИРОН?
Ахунова О. Л., Индоевропейское языкознание и классическая филология 2026 Т. 30 № 1 С. 108–119
В Девятой Пифийской оде Пиндара есть сцена, которая привлекает особое внимание комменататоров и исследователей не только потому, что любовно-эротическая тема в целом для Пиндара нехарактерна, но и потому, что в этой сцене ни вопрос, с которым Аполлон обращается к Хирону, ни ответ, который дает ему Хирон, не поддаются однозначному толкованию. Намеревается ли Аполлон совершить открытое насилие над ...
Добавлено: 1 июля 2026 г.
Concepts of searching and finding: principles of colexification in a typological perspective
Резникова Т. И., Рахилина Е. В., Рыжова Д. А. и др., Lingua 2026 Vol. 341
Добавлено: 1 июля 2026 г.
Language policy in multiethnic countries: Current trends
Бергельсон М. Б., Grenoble L., Russian Journal of Linguistics 2026 Vol. 30 No. 2 P. 275–309
Добавлено: 30 июня 2026 г.
LANGUAGE POLICY IN MULTIETHNIC COUNTRIES
-, 2026.
Добавлено: 30 июня 2026 г.
ПРОДАННЫЙ ПРАЗДНИК, УКРАДЕННАЯ ЧАСОВНЯ, ПРОИГРАННЫЙ ПРИХОД: ДЕРЕВЕНСКИЙ ПРАЗДНИК КАК СИМВОЛИЧЕСКИЙ КАПИТАЛ
Мороз А. Б., Антропологический форум 2026 Т. 69 С. 296–324
В разных российских регионах время от времени фиксируются не вполне обычные нарративы о том, как одна деревня продала другой свой праздник, как жители одной деревни украли в другой и перевезли к себе часовню, как сельский священник проиграл в карты часть своего прихода священнику соседней деревни. Все эти сюжеты излагаются обычно как курьезный случай, произошедший когда-то ...
Добавлено: 30 июня 2026 г.
VIII Международный научный конгресс (7–8 апреля 2023 г.) / Филология. Социальная и национальная вариативность языка и литературы : материалы VIII Международного научного конгресса Симферополь, Издательский дом КФУ им. В. И. Вернадского, 2023. ISBN: 978-5-605-02308-1
Издательский дом КФУ им. В. И. Вернадского, 2023.
В сборнике представлены статьи по докладам участников VIII Международного научного конгресса «Филология. Социальная и национальная вариативность языка и литературы», который проходил в г. Симферополь 7 – 8 апреля 2023 г. В представленных публикациях рассматриваются актуальные проблемы социолингвистики, социофонетики и фоностилистики, индоевропеистики, литературоведения, языкознания и корпусной лингвистики, коммуникативистики и прагмалингвистики, лингводидактики, библиотечного обслуживания, диалога культур и ...
Добавлено: 30 июня 2026 г.
I Международная научно-образовательная конференция «Пейсиковские чтения: проблемы современного академического востоковедения»: материалы конференции
М.: ИСАА МГУ имени М.В. Ломоносова, 2023.
Издание представляет собой сборник материалов I Международной научно-образовательной конференция «Пейсиковские чтения: проблемы современного академического востоковедения», проведённой 21 апреля 2023 года в ИСАА МГУ имени М.В. Ломоносова. В книге представлены работы сотрудников Института и приглашённых специалистов из ряда ведущих институтов России и зарубежных стран Сборник в электронном виде можно скачать по ссылке http://iranistika.iling-ran.ru/Sbornik/ ...
Добавлено: 30 июня 2026 г.
Великие империи Древнего Ирана: новый аутентичный мультимедийный учебный комплекс
Громова А. В., Научный вестник Крыма (Россия, ISSN: 2499-9911) 2021 № 2 (31) С. 1–13
Запущенный в Иране в 2020 г. проект ‘Телешкола’ опирается на опубликованные Министерством образования и воспитания школьные учебники и во многом отражает стандартное видение иранцами собственной истории и их стремление к продвижению богатейшего культурного наследия страны. Данная статья посвящена лингводидактическому потенциалу материалов «Телешколы» в контексте подготовки нового цифрового УМК по персидскому языку, который объединяет работу с ...
Добавлено: 30 июня 2026 г.
Традиции Ноуруза в Даване, Иран: праздничные сладости и весенние стихи
Громова А. В., Армянский гуманитарный вестник 2022 № 8 С. 267–275
Статья посвящена празднованию иранского нового года в Даване, старинном селении в остане Фарс, Иран, известном своим уникальным рельефом и архаичным диалектом. Часть существующих здесь традиций можно отнести к общеиранским сезонным практикам, однако отдельные кулинарные практики и сладости распространены только в Даване. До настоящего времени в этом месте продолжают слагать календарные стихи на местном диалекте давани. ...
Добавлено: 30 июня 2026 г.
Литературный круг Михаила Кузмина: границы – уровни – прагматика
Пахомова А. С., Quaestio Rossica 2026 Т. 14 № 2 С. 389–405
Рассмотрены структурные и прагматические особенности литературного круга – способа писательской кооперации, который ранее редко становился предметом самостоятельного анализа, особенно в сравнении с иными способами объединения писателей (кружок, салон, группа и т. д.). Основной комплекс проблем, связанных с литературным кругом, заключается в подвижности его границ, отсутствии как эксплицированного способа объединения его членов, так и явленой творческой ...
Добавлено: 30 июня 2026 г.
Сравнение методов автоматической разметки речевых формул в русскоязычном интернет-дискурсе: пилотное исследование
Попова Т. И., Масленикова А. С., В кн.: Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной международной конференции «Диалог». Выпуск 24.Issue 24.: M.: Max press, 2026. С. 420–429.
Настоящее исследование посвящено разработке и сравнению методов автоматической разметки речевых формул в корпусе русскоязычных интернет-комментариев. Речевые формулы представляют собой класс устойчивых неоднословных единиц, выражающих эмоциональную реакцию в диалоге. Материалом исследования послужил корпус из 10 000 комментариев (157 261 токен), собранных из пяти Telegram-каналов. Формальный поиск по словнику из 437 единиц дал точность (precision) 21%. Для ...
Добавлено: 29 июня 2026 г.
Иран и его соседи
Громова А. В., М.: КноРус, 2023.
Учебное пособие по лингвострановедению предназначено для востоковедов, изучающих персидский язык в рамках различных специализаций: регионоведение, филология, история и политология, экономическое развитие стран Ближнего и Среднего Востока. Пособие знакомит с реалиями современной иранской жизни и национальными новостными ресурсами, широко использует материалы Интернета. Книга оставляет известную свободу в выборе материала для занятий в зависимости от уровня владения ...
Добавлено: 29 июня 2026 г.
О генезисе жанра прозаического гимна в литературе Второй софистики в кн.: ПОЭТИКА БОГООБЩЕНИЯ: МИСТИЧЕСКИЕ ХРИСТИАНСКИЕ ТЕКСТЫ ОТ ПОЗДНЕЙ АНТИЧНОСТИ ДО XX ВЕКА
Межерицкая С. И., М.: Аквилон, 2024.
Настоящее исследование посвящено изучению и описанию жанра прозаического гимна, определению его места в системе жанров эпидейктического красноречия, а также генезису и развитию в позднеантичной риторической традиции. Оба вопроса — природа и становление данного жанра — тесно взаимосвязаны. Так, с одной стороны, полная характеристика прозаического гимна возможна только при условии его сопоставления с гимном поэтическим — древнейшим жанром древнегреческой хоровой ...
Добавлено: 29 июня 2026 г.
Tradition and innovation in ancient Greek oratory of the Roman Empire: History of the problem
Межерицкая С. И., Scrinium: Journal of Patrology and Critical Hagiography 2022 Vol. 18 P. 453–468
Добавлено: 29 июня 2026 г.
ЛАТИНСКИЕ ПЕРЕВОДЫ РЕЧЕЙ ДИОНА ХРИСОСТОМА В РЕНЕССАНСНОМ ИЗДАНИИ КАРЛО ВАЛЬГУЛИО
Межерицкая С. И., Индоевропейское языкознание и классическая филология 2026 Т. XXX № 2 С. 102–120
Статья посвящена истории и обстоятельствам появления первых латиноязычных изданий политических речей Диона Хрисостома, осуществленных в конце XV в. итальянскими гуманистами, что положило начало многовековому изучению и популяризации в Европе творчества этого крупного древнегреческого оратора и софиста. Так, после публикации кардиналом Франческо Пикколомини во Флоренции в 1471 г. четырех его речей «О царской власти» (Orr. I–IV), переведенных на латынь ...
Добавлено: 29 июня 2026 г.
Путешествие по старинным городам Ирана
Громова А. В., КноРус, 2026.
Предназначено для востоковедов, изучающих персидский язык в рамках различных специализаций, таких как история, политология, регионоведение, филология, экономическое развитие стран Ближнего и Среднего Востока. Рассчитано на студентов востоковедных вузов второго курса, знакомит с основными этапами истории Древнего Ирана, туристским потенциалом этой многоликой страны, с национальными новостными и тематическими онлайн-ресурсами. Книга оставляет известную свободу в выборе материала ...
Добавлено: 29 июня 2026 г.
ОСОБЕННОСТИ УПОТРЕБЛЕНИЯ ПОЛИТИЧЕСКОЙ ТЕРМИНОЛОГИИ В «ВИФИНСКИХ РЕЧАХ» ДИОНА ХРИСОСТОМА
Межерицкая С. И., Индоевропейское языкознание и классическая филология 2025 Т. XXIX № 2 С. 40–55
В политических речах Диона Хрисостама, в частности, в его так называемых «Вифинских речах», широко используется специфическая лексика, а сути — терминология, к числу которой относятся такие слова, как ὁμόνοια ‘согласие’, εἰρήνη ‘мир’, στάσις ‘раздор’, ἔχθρα ‘вражда’, φιλονικία ‘соперничество’ и др. Однако конкретное значение этих терминов сильно зависит от контекста и может существенно различаться в разных речах Диона. Например, ...
Добавлено: 28 июня 2026 г.
Между ересью и ортодоксией: языковая игра и интерпретация текста в средневековых латинских сочинениях о Немо
Межерицкая С. И., Шаги/Steps 2026 Т. 12 № 2 С. 197–206
В статье рассматриваются два случая пародийной реинтерпретации библейских текстов посредством языковой игры с отрицательным местоимением nemo ‘никто’ в средневековой религиозной латинcкой литературе. Анализируются два сочинения второй половины XIII в.: «История Немо» французского монаха Радульфа и «Осуждение нечестивой проповеди, изданной Радульфом о некоем Немо, еретике и преступнике…», написанное Стефаном, монахом из французского монастыря Св. Георгия. Несмотря на общую технику, ...
Добавлено: 28 июня 2026 г.
The 12th International Conference on Information Technology and Quantitative Management (ITQM 2025)
Netherlands: ScienceDirect, 2025.
Добавлено: 28 июня 2026 г.
Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной международной конференции «Диалог». Выпуск 24.
M.: Max press, 2026.
Сборник включает 64 доклада международной конференции по компьютерной лингвистике и интеллектуальным технологиям «Диалог 2026», представляющих широкий спектр теоретических и прикладных исследований в области опиания естественного языка, моделирования языковых процессов, создания практически применимых компьютерных лингвистических технологий. Для специалистов в области теоретической и прикладной лингвистики и интеллектуальных технологий. ...
Добавлено: 27 июня 2026 г.
К ранжированию значимости факторов дестабилизации в странах Азии и Африки методами машинного обучения
Коротаев А. В., Черноморченко И. Ю., Медведев И. А., Восток. Афро-азиатские общества: история и современность 2026 № 3 С. 117–130
В статье методами машинного обучения проранжированы по их значимости факторы крупномасштабной вооруженной и невооруженной дестабилизации в странах Азии и Африки. Показано, что страны Африки в большей мере уязвимы к вооружённой дестабилизации (вплоть до полномасштабных гражданских войн), а страны Азии – к массовой невооружённой (антиправительственные демонстрации, массовые беспорядки, политические забастовки и т. п.). Ключевыми факторами вооружённой ...
Добавлено: 21 июня 2026 г.
Artificial intelligence and digital twins for failure prediction in data center cooling systems: a comprehensive literature review (2018–2026)
Butorova A., Bobakov V., Sergeev A. и др., European Physical Journal: Special Topics 2026 P. 1–19
Добавлено: 10 июня 2026 г.
Влияние шизофрении на лексический уровень языка
Унтила К. В., Тасенко О. А., В кн.: Современная лингвистика: ключ к диалогу. Труды и материалы IV Казанского международного лингвистического саммита.Т. 1: СОВРЕМЕННАЯ ЛИНГВИСТИКА: КЛЮЧ К ДИАЛОГУ.: Каз.: Издательство Казанского университета, 2024. С. 221–224.
Шизофрения – это хроническое психическое расстройство, которое выражается как комбинация психотических симптомов – таких как галлюцинации, бред и дезорганизация когнитивных функций. У многих пациентов с диагнозом шизофрения обнаруживаются нарушения речи. Для исследования были отобраны рассказы об истории из жизни из корпуса 3D. В качестве личных историй были собраны ответы на вопросы «Какой самый лучший или запоминающийся ...
Добавлено: 8 июня 2026 г.
Proceedings of the 43rd International Conference on Machine Learning (ICML 2026)
Seul: PMLR, 2026.
Добавлено: 4 июня 2026 г.
  • О ВЫШКЕ
  • Цифры и факты
  • Руководство и структура
  • Устойчивое развитие в НИУ ВШЭ
  • Преподаватели и сотрудники
  • Корпуса и общежития
  • Закупки
  • Обращения граждан в НИУ ВШЭ
  • Фонд целевого капитала
  • Противодействие коррупции
  • Сведения о доходах, расходах, об имуществе и обязательствах имущественного характера
  • Сведения об образовательной организации
  • Людям с ограниченными возможностями здоровья
  • Единая платежная страница
  • Работа в Вышке
  • ОБРАЗОВАНИЕ
  • Лицей
  • Довузовская подготовка
  • Олимпиады
  • Прием в бакалавриат
  • Вышка+
  • Прием в магистратуру
  • Аспирантура
  • Дополнительное образование
  • Центр развития карьеры
  • Бизнес-инкубатор ВШЭ
  • Образовательные партнерства
  • Обратная связь и взаимодействие с получателями услуг
  • НАУКА
  • Научные подразделения
  • Исследовательские проекты
  • Мониторинги
  • Диссертационные советы
  • Защиты диссертаций
  • Академическое развитие
  • Конкурсы и гранты
  • Внешние научно-информационные ресурсы
  • РЕСУРСЫ
  • Библиотека
  • Издательский дом ВШЭ
  • Книжный магазин «БукВышка»
  • Типография
  • Медиацентр
  • Журналы ВШЭ
  • Публикации
  • http://www.minobrnauki.gov.ru/
    Министерство науки и высшего образования РФ
  • https://edu.gov.ru/
    Министерство просвещения РФ
  • http://www.edu.ru
    Федеральный портал «Российское образование»
  • https://elearning.hse.ru/mooc
    Массовые открытые онлайн-курсы
  • НИУ ВШЭ1993–2026
  • Адреса и контакты
  • Условия использования материалов
  • Политика конфиденциальности
  • Правила применения рекомендательных технологий в НИУ ВШЭ
  • Карта сайта
Редактору