• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • A
  • A
  • A
  • A
  • A
Обычная версия сайта
  • RU
  • EN
  • Национальный исследовательский университет «Высшая школа экономики»
  • Публикации ВШЭ
  • Статьи
  • Automatic Morpheme Segmentation for Russian: Can an Algorithm Replace Experts?
  • RU
  • EN
Расширенный поиск
Высшая школа экономики
Национальный исследовательский университет
Приоритетные направления
  • бизнес-информатика
  • государственное и муниципальное управление
  • гуманитарные науки
  • инженерные науки
  • компьютерно-математическое
  • математика
  • менеджмент
  • право
  • социология
  • экономика
по году
  • 2027
  • 2026
  • 2025
  • 2024
  • 2023
  • 2022
  • 2021
  • 2020
  • 2019
  • 2018
  • 2017
  • 2016
  • 2015
  • 2014
  • 2013
  • 2012
  • 2011
  • 2010
  • 2009
  • 2008
  • 2007
  • 2006
  • 2005
  • 2004
  • 2003
  • 2002
  • 2001
  • 2000
  • 1999
  • 1998
  • 1997
  • 1996
  • 1995
  • 1994
  • 1993
  • 1992
  • 1991
  • 1990
  • 1989
  • 1988
  • 1987
  • 1986
  • 1985
  • 1984
  • 1983
  • 1982
  • 1981
  • 1980
  • 1979
  • 1978
  • 1977
  • 1976
  • 1975
  • 1974
  • 1973
  • 1972
  • 1971
  • 1970
  • 1969
  • 1968
  • 1967
  • 1966
  • 1965
  • 1964
  • 1963
  • 1958
  • еще
Тематика
Новости
3 июля 2026 г.
Исследование НИУ ВШЭ: молодые россияне едут в крупные города за высшим образованием
За период с 2011 по 2021 год число переездов 18-летних россиян составило 1,2 млн человек. Из них 78% отправились в 160 крупных городов, что с большой долей вероятности связано с желанием получить высшее образование. Лидеры по формированию вузовских зон притяжения: Москва, Санкт-Петербург, Екатеринбург, Ростов-на-Дону, Краснодар, Новосибирск.
2 июля 2026 г.
Ученые НИУ ВШЭ в Санкт-Петербурге создали микролазер размером с бактерию
Международная команда исследователей при участии НИУ ВШЭ в Санкт-Петербурге создала микролазеры, излучающие в диапазоне глубокого ультрафиолета — 255 нанометров. Устройства работают при комнатной температуре, а диаметр самого маленького из них — около двух микрометров, что сопоставимо с размером бактерии. Такие лазеры могут применяться для сенсоров, спектроскопических систем, фотонных чипов и устройств связи. Работа опубликована в журнале Optics & Laser Technology.
1 июля 2026 г.
Ученые НИУ ВШЭ выяснили, кто и почему в России питается вне дома
Около трети населения (31,3%) практически не едят вне дома и не покупают готовую еду. Ядро активных потребителей — тех, кто питается вне дома или покупает готовое почти ежедневно или несколько раз в неделю, — составляет всего около 9%. Таковы результаты исследования, проведенного Институтом социальной политики НИУ ВШЭ. Как отмечают авторы, питание вне дома в России перестало быть маркером высокого статуса.

 

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!

Публикации
  • Книги
  • Статьи
  • Главы в книгах
  • Препринты
  • Верификация публикаций
  • Расширенный поиск
  • Правила использования материалов
  • Наука в ВШЭ

?

Automatic Morpheme Segmentation for Russian: Can an Algorithm Replace Experts?

Journal of Language and Education. 2024. Vol. 10. No. 4. P. 71–84.
Morozov D., Garipov T., Ляшевская О. Н., Savchuk S., Иомдин Б. Л., Glazkova A.

Introduction: Numerous algorithms have been proposed for the task of automatic morpheme segmentation of Russian words. Due to the differences in task formulation and datasets utilized, comparing the quality of these algorithms is challenging. It is unclear whether the errors in the models are due to the ineffectiveness of algorithms themselves or to errors and inconsistencies in the morpheme dictionaries. Thus, it remains uncertain whether any algorithm can be used to automatically expand the existing morpheme dictionaries.

Purpose: To compare various existing algorithms of morpheme segmentation for the Russian language and analyze their applicability in the task of automatic augmentation of various existing morpheme dictionaries.

Results: In this study, we compared several state-of-the-art machine learning algorithms using three datasets structured around different segmentation paradigms. Two experiments were carried out, each employing five-fold cross-validation. In the first experiment, we randomly partitioned the dataset into five subsets. In the second, we grouped all words sharing the same root into a single subset, excluding words that contained multiple roots. During cross-validation, models were trained on four of these subsets and evaluated on the remaining one. Across both experiments, the algorithms that relied on ensembles of convolutional neural networks consistently demonstrated the highest performance. However, we observed a notable decline in accuracy when testing on words containing unfamiliar roots. We also found that, on a randomly selected set of words, the performance of these algorithms was comparable to that of human experts.

Conclusion: Our results indicate that although automatic methods have, on average, reached a quality close to expert level, the lack of semantic consideration makes it impossible to use them for automatic dictionary expansion without expert validation. The conducted research revealed that further research should be aimed at addressing the key identified issues: poor performance with unknown roots and acronyms. At the same time, when a small number of unfamiliar roots can be assumed in the test dataset, an ensemble of convolutional neural networks should be utilized. The presented results can be used in the development of morpheme-oriented tokenizers and systems for analyzing the complexity of texts.

Научное направление: Филология и лингвистика Компьютерные науки
Язык: английский
Полный текст
DOI
Текст на другом сайте
Ключевые слова: машинное обучениеnatural language processingавтоматическая обработка естественного языкаconvolutional neural networksmorphological analysisморфемный анализсверточные нейронные сетиморфология русского языка machine learningautomatic morpheme segmentationRussian language morphologydictionary expansionexpert-level performanceавтоматическая морфемное членениерасширение словарякачество экспертного уровня
Похожие публикации
Семантика необратимости в медиадискурсе ФРГ: эсхатологические коды и реакция аудитории в условиях кризиса
Москвина Ж. О., Вестник Российского университета дружбы народов. Серия: Литературоведение, журналистика 2026 Т. 31 № 2 С. 398–408
Исследованы семантические и когнитивные механизмы функционирования лексемы «необратимость» (Unumkehrbarkeit), изучен современный немецкий медиа-дискурс, где освещается кризис германо-российских отношений. В основе исследования лежит гипотеза о том, что апелляция к семантике необратимости в СМИ служит ритори-ческой стратегией, призванной усилить восприятие происходящих изменений как окон-чательных. Однако, как демонстрирует проведенный анализ, данная стратегия вступает в противоречие с глубинными структурами ...
Добавлено: 3 июля 2026 г.
Modulation Recognition for Industrial Internet of Things Communication Signals Under Few-Shot Conditions Based on Attention Mechanism and Relation Network
Hualin M., Jie Z., Jerome Y. и др., Journal of Internet Technology 2026 Vol. 27 No. 3 P. 367–382
Добавлено: 3 июля 2026 г.
Кодовые конструкции на базе обобщенных каскадных кодов для систем связи, использующих прием на основе порядковых статистик
Осипов Д. С., Информационно-управляющие системы 2026 № 3 С. 49–62
Введение: во многих проектируемых в настоящее время и перспективных системах связи методы оценивания характеристик канала и управления мощностью сигнала, разработанные для систем связи предыдущих поколений, не могут обеспечить требуемую точность оценивания и выравнивания мощности сигналов на приемном конце. Одним из вариантов решения этой проблемы является использование методов приема на основе порядковых статистик, которые не требуют управления мощностью ...
Добавлено: 3 июля 2026 г.
Men and women are from the same planet Gender similarities in perspective-taking abilities
Imbault C., Слюсарь Н. А., Иваненко А. А. и др., The Mental Lexicon 2026 P. 1–23
Добавлено: 2 июля 2026 г.
Об одном из путей грамматикализации страдательных причастий прошедшего времени в славянских языках (на материале польского и русского языков)
Ермолова М. В., Вопросы языкознания 2026 № 4 С. 73–85
В статье сопоставляются процессы эволюции страдательного причастия прошедшего времени (СППВ) в неопределенно-личную финитную форму прошедшего времени в польском и старорусском языках. Рассматриваются типы контекстов СППВ, зафиксированные в истории русского языка, и типы польских употреблений с СППВ, которые связаны с формированием неопределенно-личной формы на -no/-to. В результате анализа материала обоих языков можно сделать вывод о том, ...
Добавлено: 2 июля 2026 г.
ПИНДАР. ПИФИЙСКАЯ ОДА 9.33–43: О ЧЕМ ГОВОРИТ ХИРОН?
Ахунова О. Л., Индоевропейское языкознание и классическая филология 2026 Т. 30 № 1 С. 108–119
В Девятой Пифийской оде Пиндара есть сцена, которая привлекает особое внимание комменататоров и исследователей не только потому, что любовно-эротическая тема в целом для Пиндара нехарактерна, но и потому, что в этой сцене ни вопрос, с которым Аполлон обращается к Хирону, ни ответ, который дает ему Хирон, не поддаются однозначному толкованию. Намеревается ли Аполлон совершить открытое насилие над ...
Добавлено: 1 июля 2026 г.
Concepts of searching and finding: principles of colexification in a typological perspective
Резникова Т. И., Рахилина Е. В., Рыжова Д. А. и др., Lingua 2026 Vol. 341
Добавлено: 1 июля 2026 г.
Language policy in multiethnic countries: Current trends
Бергельсон М. Б., Grenoble L., Russian Journal of Linguistics 2026 Vol. 30 No. 2 P. 275–309
Добавлено: 30 июня 2026 г.
LANGUAGE POLICY IN MULTIETHNIC COUNTRIES
-, 2026.
Добавлено: 30 июня 2026 г.
ПРОДАННЫЙ ПРАЗДНИК, УКРАДЕННАЯ ЧАСОВНЯ, ПРОИГРАННЫЙ ПРИХОД: ДЕРЕВЕНСКИЙ ПРАЗДНИК КАК СИМВОЛИЧЕСКИЙ КАПИТАЛ
Мороз А. Б., Антропологический форум 2026 Т. 69 С. 296–324
В разных российских регионах время от времени фиксируются не вполне обычные нарративы о том, как одна деревня продала другой свой праздник, как жители одной деревни украли в другой и перевезли к себе часовню, как сельский священник проиграл в карты часть своего прихода священнику соседней деревни. Все эти сюжеты излагаются обычно как курьезный случай, произошедший когда-то ...
Добавлено: 30 июня 2026 г.
VIII Международный научный конгресс (7–8 апреля 2023 г.) / Филология. Социальная и национальная вариативность языка и литературы : материалы VIII Международного научного конгресса Симферополь, Издательский дом КФУ им. В. И. Вернадского, 2023. ISBN: 978-5-605-02308-1
Издательский дом КФУ им. В. И. Вернадского, 2023.
В сборнике представлены статьи по докладам участников VIII Международного научного конгресса «Филология. Социальная и национальная вариативность языка и литературы», который проходил в г. Симферополь 7 – 8 апреля 2023 г. В представленных публикациях рассматриваются актуальные проблемы социолингвистики, социофонетики и фоностилистики, индоевропеистики, литературоведения, языкознания и корпусной лингвистики, коммуникативистики и прагмалингвистики, лингводидактики, библиотечного обслуживания, диалога культур и ...
Добавлено: 30 июня 2026 г.
I Международная научно-образовательная конференция «Пейсиковские чтения: проблемы современного академического востоковедения»: материалы конференции
М.: ИСАА МГУ имени М.В. Ломоносова, 2023.
Издание представляет собой сборник материалов I Международной научно-образовательной конференция «Пейсиковские чтения: проблемы современного академического востоковедения», проведённой 21 апреля 2023 года в ИСАА МГУ имени М.В. Ломоносова. В книге представлены работы сотрудников Института и приглашённых специалистов из ряда ведущих институтов России и зарубежных стран Сборник в электронном виде можно скачать по ссылке http://iranistika.iling-ran.ru/Sbornik/ ...
Добавлено: 30 июня 2026 г.
Великие империи Древнего Ирана: новый аутентичный мультимедийный учебный комплекс
Громова А. В., Научный вестник Крыма (Россия, ISSN: 2499-9911) 2021 № 2 (31) С. 1–13
Запущенный в Иране в 2020 г. проект ‘Телешкола’ опирается на опубликованные Министерством образования и воспитания школьные учебники и во многом отражает стандартное видение иранцами собственной истории и их стремление к продвижению богатейшего культурного наследия страны. Данная статья посвящена лингводидактическому потенциалу материалов «Телешколы» в контексте подготовки нового цифрового УМК по персидскому языку, который объединяет работу с ...
Добавлено: 30 июня 2026 г.
Традиции Ноуруза в Даване, Иран: праздничные сладости и весенние стихи
Громова А. В., Армянский гуманитарный вестник 2022 № 8 С. 267–275
Статья посвящена празднованию иранского нового года в Даване, старинном селении в остане Фарс, Иран, известном своим уникальным рельефом и архаичным диалектом. Часть существующих здесь традиций можно отнести к общеиранским сезонным практикам, однако отдельные кулинарные практики и сладости распространены только в Даване. До настоящего времени в этом месте продолжают слагать календарные стихи на местном диалекте давани. ...
Добавлено: 30 июня 2026 г.
Становление имени: ранние этапы усвоения детьми именной морфологии русского языка.
Воейкова М. Д., Языки славянских культур, 2015.
Книга посвящена описанию начального этапа усвоения русскими детьми имен существительных, прилагательных и числительных. Именная система является основой языковой системы ребенка: известно, что имена лиц и названия предметов составляют около 90% из первых 100 слов детей, овладевающих индоевропейскими языками. Кстати, в языках другого строя (например, в корейском или в китайском) процент имен в начальном словаре может ...
Добавлено: 30 июня 2026 г.
Литературный круг Михаила Кузмина: границы – уровни – прагматика
Пахомова А. С., Quaestio Rossica 2026 Т. 14 № 2 С. 389–405
Рассмотрены структурные и прагматические особенности литературного круга – способа писательской кооперации, который ранее редко становился предметом самостоятельного анализа, особенно в сравнении с иными способами объединения писателей (кружок, салон, группа и т. д.). Основной комплекс проблем, связанных с литературным кругом, заключается в подвижности его границ, отсутствии как эксплицированного способа объединения его членов, так и явленой творческой ...
Добавлено: 30 июня 2026 г.
Сравнение методов автоматической разметки речевых формул в русскоязычном интернет-дискурсе: пилотное исследование
Попова Т. И., Масленикова А. С., В кн.: Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной международной конференции «Диалог». Выпуск 24.Issue 24.: M.: Max press, 2026. С. 420–429.
Настоящее исследование посвящено разработке и сравнению методов автоматической разметки речевых формул в корпусе русскоязычных интернет-комментариев. Речевые формулы представляют собой класс устойчивых неоднословных единиц, выражающих эмоциональную реакцию в диалоге. Материалом исследования послужил корпус из 10 000 комментариев (157 261 токен), собранных из пяти Telegram-каналов. Формальный поиск по словнику из 437 единиц дал точность (precision) 21%. Для ...
Добавлено: 29 июня 2026 г.
Иран и его соседи
Громова А. В., М.: КноРус, 2023.
Учебное пособие по лингвострановедению предназначено для востоковедов, изучающих персидский язык в рамках различных специализаций: регионоведение, филология, история и политология, экономическое развитие стран Ближнего и Среднего Востока. Пособие знакомит с реалиями современной иранской жизни и национальными новостными ресурсами, широко использует материалы Интернета. Книга оставляет известную свободу в выборе материала для занятий в зависимости от уровня владения ...
Добавлено: 29 июня 2026 г.
О генезисе жанра прозаического гимна в литературе Второй софистики в кн.: ПОЭТИКА БОГООБЩЕНИЯ: МИСТИЧЕСКИЕ ХРИСТИАНСКИЕ ТЕКСТЫ ОТ ПОЗДНЕЙ АНТИЧНОСТИ ДО XX ВЕКА
Межерицкая С. И., М.: Аквилон, 2024.
Настоящее исследование посвящено изучению и описанию жанра прозаического гимна, определению его места в системе жанров эпидейктического красноречия, а также генезису и развитию в позднеантичной риторической традиции. Оба вопроса — природа и становление данного жанра — тесно взаимосвязаны. Так, с одной стороны, полная характеристика прозаического гимна возможна только при условии его сопоставления с гимном поэтическим — древнейшим жанром древнегреческой хоровой ...
Добавлено: 29 июня 2026 г.
Tradition and innovation in ancient Greek oratory of the Roman Empire: History of the problem
Межерицкая С. И., Scrinium: Journal of Patrology and Critical Hagiography 2022 Vol. 18 P. 453–468
Добавлено: 29 июня 2026 г.
К ранжированию значимости факторов дестабилизации в странах Азии и Африки методами машинного обучения
Коротаев А. В., Черноморченко И. Ю., Медведев И. А., Восток. Афро-азиатские общества: история и современность 2026 № 3 С. 117–130
В статье методами машинного обучения проранжированы по их значимости факторы крупномасштабной вооруженной и невооруженной дестабилизации в странах Азии и Африки. Показано, что страны Африки в большей мере уязвимы к вооружённой дестабилизации (вплоть до полномасштабных гражданских войн), а страны Азии – к массовой невооружённой (антиправительственные демонстрации, массовые беспорядки, политические забастовки и т. п.). Ключевыми факторами вооружённой ...
Добавлено: 21 июня 2026 г.
Artificial intelligence and digital twins for failure prediction in data center cooling systems: a comprehensive literature review (2018–2026)
Butorova A., Bobakov V., Sergeev A. и др., European Physical Journal: Special Topics 2026 P. 1–19
Добавлено: 10 июня 2026 г.
Влияние шизофрении на лексический уровень языка
Унтила К. В., Тасенко О. А., В кн.: Современная лингвистика: ключ к диалогу. Труды и материалы IV Казанского международного лингвистического саммита.Т. 1: СОВРЕМЕННАЯ ЛИНГВИСТИКА: КЛЮЧ К ДИАЛОГУ.: Каз.: Издательство Казанского университета, 2024. С. 221–224.
Шизофрения – это хроническое психическое расстройство, которое выражается как комбинация психотических симптомов – таких как галлюцинации, бред и дезорганизация когнитивных функций. У многих пациентов с диагнозом шизофрения обнаруживаются нарушения речи. Для исследования были отобраны рассказы об истории из жизни из корпуса 3D. В качестве личных историй были собраны ответы на вопросы «Какой самый лучший или запоминающийся ...
Добавлено: 8 июня 2026 г.
Proceedings of the 43rd International Conference on Machine Learning (ICML 2026)
Seul: PMLR, 2026.
Добавлено: 4 июня 2026 г.
  • О ВЫШКЕ
  • Цифры и факты
  • Руководство и структура
  • Устойчивое развитие в НИУ ВШЭ
  • Преподаватели и сотрудники
  • Корпуса и общежития
  • Закупки
  • Обращения граждан в НИУ ВШЭ
  • Фонд целевого капитала
  • Противодействие коррупции
  • Сведения о доходах, расходах, об имуществе и обязательствах имущественного характера
  • Сведения об образовательной организации
  • Людям с ограниченными возможностями здоровья
  • Единая платежная страница
  • Работа в Вышке
  • ОБРАЗОВАНИЕ
  • Лицей
  • Довузовская подготовка
  • Олимпиады
  • Прием в бакалавриат
  • Вышка+
  • Прием в магистратуру
  • Аспирантура
  • Дополнительное образование
  • Центр развития карьеры
  • Бизнес-инкубатор ВШЭ
  • Образовательные партнерства
  • Обратная связь и взаимодействие с получателями услуг
  • НАУКА
  • Научные подразделения
  • Исследовательские проекты
  • Мониторинги
  • Диссертационные советы
  • Защиты диссертаций
  • Академическое развитие
  • Конкурсы и гранты
  • Внешние научно-информационные ресурсы
  • РЕСУРСЫ
  • Библиотека
  • Издательский дом ВШЭ
  • Книжный магазин «БукВышка»
  • Типография
  • Медиацентр
  • Журналы ВШЭ
  • Публикации
  • http://www.minobrnauki.gov.ru/
    Министерство науки и высшего образования РФ
  • https://edu.gov.ru/
    Министерство просвещения РФ
  • http://www.edu.ru
    Федеральный портал «Российское образование»
  • https://elearning.hse.ru/mooc
    Массовые открытые онлайн-курсы
  • НИУ ВШЭ1993–2026
  • Адреса и контакты
  • Условия использования материалов
  • Политика конфиденциальности
  • Правила применения рекомендательных технологий в НИУ ВШЭ
  • Карта сайта
Редактору