• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • A
  • A
  • A
  • A
  • A
Обычная версия сайта
  • RU
  • EN
  • Национальный исследовательский университет «Высшая школа экономики»
  • Публикации ВШЭ
  • Статьи
  • Automatic Morpheme Segmentation for Russian: Can an Algorithm Replace Experts?
  • RU
  • EN
Расширенный поиск
Высшая школа экономики
Национальный исследовательский университет
Приоритетные направления
  • бизнес-информатика
  • государственное и муниципальное управление
  • гуманитарные науки
  • инженерные науки
  • компьютерно-математическое
  • математика
  • менеджмент
  • право
  • социология
  • экономика
по году
  • 2027
  • 2026
  • 2025
  • 2024
  • 2023
  • 2022
  • 2021
  • 2020
  • 2019
  • 2018
  • 2017
  • 2016
  • 2015
  • 2014
  • 2013
  • 2012
  • 2011
  • 2010
  • 2009
  • 2008
  • 2007
  • 2006
  • 2005
  • 2004
  • 2003
  • 2002
  • 2001
  • 2000
  • 1999
  • 1998
  • 1997
  • 1996
  • 1995
  • 1994
  • 1993
  • 1992
  • 1991
  • 1990
  • 1989
  • 1988
  • 1987
  • 1986
  • 1985
  • 1984
  • 1983
  • 1982
  • 1981
  • 1980
  • 1979
  • 1978
  • 1977
  • 1976
  • 1975
  • 1974
  • 1973
  • 1972
  • 1971
  • 1970
  • 1969
  • 1968
  • 1967
  • 1966
  • 1965
  • 1964
  • 1963
  • 1958
  • еще
Тематика
Новости
26 июня 2026 г.
«Культурологи пытаются увидеть, что скрывается за поверхностью обычных вещей»
Максим Жиганов много лет исследует разные стороны звука — сначала в привязке к своей родной Перми, а затем в более глобальных масштабах. В интервью проекту «Молодые ученые Вышки» он рассказал о звуковых картах, тематическом номере журнала «Логос» и о том, зачем делать привычное менее понятным и очевидным.
26 июня 2026 г.
В НИУ ВШЭ разработали приложение для диагностики фонологической обработки у детей
Специалисты Центра языка и мозга НИУ ВШЭ представили новый цифровой инструмент для оценки навыков фонологической обработки у детей — батарею тестов «ЗАРЯ» («Звуковой анализ русского языка»). Это первое в России стандартизированное приложение, позволяющее быстро и надежно выявлять нарушения способности различать звуки речи, удерживать их в оперативной памяти и проводить фонематический анализ. Программа работает на планшетах и смартфонах с операционной системой Android, доступна для скачивания в RuStore. Детали валидации теста опубликованы в Journal of Speech, Language, and Hearing Research.
24 июня 2026 г.
Древняя чашекрания - новый вид брахиопод с необычной формой раковины и образом жизни
Российские ученые из Высшей школы экономики, МГУ имени М.В. Ломоносова и Таллинского технического университета изучили ископаемый вид древних брахиопод (плеченогих), который обитал в теплом море на севере современной Эстонии более 445 миллионов лет назад. Древняя брахиопода росла в форме чашки со «шляпкой», чтобы защититься от зарастания. Исследование опубликовано в журнале Palaeogeography, Palaeoclimatology, Palaeoecology.

 

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!

Публикации
  • Книги
  • Статьи
  • Главы в книгах
  • Препринты
  • Верификация публикаций
  • Расширенный поиск
  • Правила использования материалов
  • Наука в ВШЭ

?

Automatic Morpheme Segmentation for Russian: Can an Algorithm Replace Experts?

Journal of Language and Education. 2024. Vol. 10. No. 4. P. 71–84.
Morozov D., Garipov T., Ляшевская О. Н., Savchuk S., Иомдин Б. Л., Glazkova A.

Introduction: Numerous algorithms have been proposed for the task of automatic morpheme segmentation of Russian words. Due to the differences in task formulation and datasets utilized, comparing the quality of these algorithms is challenging. It is unclear whether the errors in the models are due to the ineffectiveness of algorithms themselves or to errors and inconsistencies in the morpheme dictionaries. Thus, it remains uncertain whether any algorithm can be used to automatically expand the existing morpheme dictionaries.

Purpose: To compare various existing algorithms of morpheme segmentation for the Russian language and analyze their applicability in the task of automatic augmentation of various existing morpheme dictionaries.

Results: In this study, we compared several state-of-the-art machine learning algorithms using three datasets structured around different segmentation paradigms. Two experiments were carried out, each employing five-fold cross-validation. In the first experiment, we randomly partitioned the dataset into five subsets. In the second, we grouped all words sharing the same root into a single subset, excluding words that contained multiple roots. During cross-validation, models were trained on four of these subsets and evaluated on the remaining one. Across both experiments, the algorithms that relied on ensembles of convolutional neural networks consistently demonstrated the highest performance. However, we observed a notable decline in accuracy when testing on words containing unfamiliar roots. We also found that, on a randomly selected set of words, the performance of these algorithms was comparable to that of human experts.

Conclusion: Our results indicate that although automatic methods have, on average, reached a quality close to expert level, the lack of semantic consideration makes it impossible to use them for automatic dictionary expansion without expert validation. The conducted research revealed that further research should be aimed at addressing the key identified issues: poor performance with unknown roots and acronyms. At the same time, when a small number of unfamiliar roots can be assumed in the test dataset, an ensemble of convolutional neural networks should be utilized. The presented results can be used in the development of morpheme-oriented tokenizers and systems for analyzing the complexity of texts.

Научное направление: Филология и лингвистика Компьютерные науки
Язык: английский
Полный текст
DOI
Текст на другом сайте
Ключевые слова: машинное обучениеnatural language processingавтоматическая обработка естественного языкаconvolutional neural networksmorphological analysisморфемный анализсверточные нейронные сетиморфология русского языка machine learningautomatic morpheme segmentationRussian language morphologydictionary expansionexpert-level performanceавтоматическая морфемное членениерасширение словарякачество экспертного уровня
Похожие публикации
Incorporating Scientific Knowledge into Neural Network Density Functionals
Медведев М. Г., Journal of Chemical Theory and Computation 2026 Vol. 22 No. 9
Добавлено: 26 июня 2026 г.
Читательские прогулки по «Стеклянному городу»: искусство ориентирования. Материалы круглого стола
Шулятьева Д. В., Венедиктова Т. Д., Анцыферова О. Ю., LITERATURE OF THE AMERICAS 2026 № 20 С. 84–137
Круглый стол, посвященный роману Пола Остера (1947–2024) «Стеклянный город» (1985), в котором приняли участие преподаватели, аспиранты и студенты, состоялся на филологическом факультете МГУ им. М.В. Ломоносова 8 декабря 2025 г. Поводом было сорокалетие публикации романа, ставшему впоследствии первой частью «Нью-йоркской трилогии» Остера. Писателю удалось соединить в «Стеклянном городе» экзистенциальную озабоченность с нарративным экспериментом и условности криминального жанра ...
Добавлено: 25 июня 2026 г.
Моделирование полностью роботизированного склада со стеллажами глубокого хранения
Гаджимирзаев Ш. М., Хельвас А. В., Computer Research and Modeling 2026 Vol. 18 No. 2 P. 423–438
В данной статье рассматривается модель полностью роботизированного склада с глубо кими стеллажами, предназначенного для хранения коробочных товаров. Основное внимание уделено оптимизации работы склада за счет дискретного мультиагентного моделирования дви жения шаттлов, выполняющих задачи по отгрузке и размещению коробок. Авторы исследуют различные стратегии размещения товаров в зонах склада, включая алгоритмы NCPA (Nearest Channel Positioning Algorithm), MECGP (Most Empty Channel Group Placement) ...
Добавлено: 24 июня 2026 г.
A machine learning dataset on winter roads of Krasnoyarsk Krai, Russia for the forestry and infrastructural projects
Подольская Е. С., Sinitsina A., European Journal of Forest Engineering 2026 Vol. 12 No. 1 P. 7–21
Добавлено: 24 июня 2026 г.
Полевые исследования лесного ненецкого языка: экспедиция в Пуровский район 2024 г.
Козлов А. А., Толдова С. Ю., Агичева О. К., Языки и фольклор коренных народов Сибири 2026 № 57(1) С. 101–112
В статье представлен опыт проведения экспедиционных исследований лесного ненецкого языка в Пуровском районе Ямало-Ненецкого автономного округа. Описываются принципы и методы полевой работы группы, кратко перечисляются некоторые результаты. Так, из результатов в области фонологии дается описание фонологических (или морфонологических) чередований, связанных с гласным перед- него ряда средне-нижнего подъема /ä/. Из результатов в области лексической семантики дается описа- ние ...
Добавлено: 24 июня 2026 г.
The state and prospects of using virtual reality technologies in sports: a brief review
Atlasov B., Сельский А. К., Russian Journal of Information Technology in Sports 2025 Vol. 2 No. 1 P. 13–21
В статье рассматривается текущее состояние глобального рынка технологий виртуальной и дополненной реальности (VR/AR) в спорте, отмечается его рост, хотя и более медленный, чем ожидалось ранее. Особое внимание уделено российскому рынку, где развитие VR-технологий в спорте отстает от мировых лидеров, таких как США, страны ЕС и Китай, но при этом имеет значительный потенциал для роста. Проведен ...
Добавлено: 23 июня 2026 г.
AI & PDE: ICLR 2026 Workshop on AI and Partial Differential Equations
[б.и.], 2026.
Добавлено: 23 июня 2026 г.
Алжирская война и французская литература: случай Жоржа Перека
Кириченко В. В., Практики и интерпретации: журнал филологических, образовательных и культурных исследований, Россия 2026 Т. 11 № 1 С. 66–91
Статья посвящена малоизученному аспекту творчества французского писателя Жоржа Перека – влиянию Алжирской войны (1954–1962) на его литературное наследие. Несмотря на почти полное отсутствие прямых упоминаний войны в произведениях Перека, травматический исторический контекст значим для понимания тематики, структуры и стиля его текстов. Основное внимание уделяется анализу таких произведений, как «Вещи» (1965), «Что это за маленький мопед...» ...
Добавлено: 23 июня 2026 г.
Тезисы докладов Пятнадцатых Шмелёвских чтений: (К 100-летию со дня рождения академика Дмитрия Николаевича Шмелева):Жизнь слова: Научное наследие академика Д. Н. Шмелева в контексте современности
М.: Институт русского языка им. В.В. Виноградова РАН, 2026.
Сборник тезисов Пятнадцатых Шмелёвских чтений (К 100-летию со дня рождения академика Дмитрия Николаевича Шмелева) Жизнь слова: Научное наследие академика Д. Н. Шмелева в контексте современности. Охватывает разные аспекты современной русистики: от исторической лексикологии до современных трансформаций прагматики и семантики слов. ...
Добавлено: 23 июня 2026 г.
2025 9th International Conference on Information, Control, and Communication Technologies (ICCT-2025)
IEEE, 2026.
Добавлено: 23 июня 2026 г.
Proceedings of the 4th Workshop on NLP for Music and Audio (NLP4MusA 2026)
Бузаев Ф. А., Mullakhmetov R., Bogachev R. и др., Association for Computational Linguistics, 2026.
Добавлено: 22 июня 2026 г.
Кумранская версия текста одного библейского отрывка (Ис 42:1–9)
Битнер К. А., Индоевропейское языкознание и классическая филология 2025 Т. 29 № 1 С. 180–195
Статья посвящена интерпретации нескольких наиболее важных вариантов текста Ис 42:1–9, которые встречаются в Большом свитке Исайи (1QIsaa ), обнаруженном в Кумране. Данная рукопись является старейшим свидетельством древнееврейского текста библейской книги Исайи, датируется второй половиной II в. до н. э. В статье демонстрируется, что в большинстве случаев причиной появления разночтений являлась редакторская деятельность писца свитка. ...
Добавлено: 22 июня 2026 г.
Zα and Zβ Localize ADAR1 to Flipons That Modulate Innate Immunity, Alternative Splicing, and Nonsynonymous RNA Editing
Herbert A., Cherednichenko O., Lybrand T. и др., International Journal of Molecular Sciences 2025 Vol. 26 No. 6 Article 2422
Добавлено: 22 июня 2026 г.
Интерпретация эпиклезы византийской литургии в «Евхологии» Жака Гоара (1647)
Бернацкий М. М., Вестник Православного Свято-Тихоновского гуманитарного университета. Серия 3: Филология 2026 № 83 С. 81–100
В публикации представлен комментированный перевод c латинского заметок Жака Гоара к тексту эпиклезы из его «Евхология» (1647). Перевод предваряется вступительной статьей, помещающей текст Гоара в историко-литературный контекст, связанный с греко-латинскими спорами о времени освящения даров, ключевым моментом которых стала полемика об эпиклезе на Флорентийском соборе 1439 г. Комментарии Гоара построены на основе итогов флорентийских дебатов, ...
Добавлено: 21 июня 2026 г.
К ранжированию значимости факторов дестабилизации в странах Азии и Африки методами машинного обучения
Коротаев А. В., Черноморченко И. Ю., Медведев И. А., Восток. Афро-азиатские общества: история и современность 2026 № 3 С. 117–130
В статье методами машинного обучения проранжированы по их значимости факторы крупномасштабной вооруженной и невооруженной дестабилизации в странах Азии и Африки. Показано, что страны Африки в большей мере уязвимы к вооружённой дестабилизации (вплоть до полномасштабных гражданских войн), а страны Азии – к массовой невооружённой (антиправительственные демонстрации, массовые беспорядки, политические забастовки и т. п.). Ключевыми факторами вооружённой ...
Добавлено: 21 июня 2026 г.
Международная конференция «Математические идеи академика П.Л. Чебышёва, их приложения в естественных науках и технологи- ях искусственного интеллекта», приуроченная к 205-й годовщине со дня его рождения» : Материалы конференции. / (Обнинск, 14–16 мая 2026 г.): Материалы конференции. Под ред. акад. В.Б. Бетелина. — Калуга: Калужский печатный двор, 2026. — 232 с.
Калужский печатный двор, 2026.
Сборник трудов конференции "Математические идеи академика П.Л. Чебышёва, их приложения в естественных науках и технологиях искусственного интеллекта» ...
Добавлено: 20 июня 2026 г.
ИНТЕГРАЦИЯ ТЕХНОЛОГИИ ГЕНЕРАТИВНОГО ИСКУССТВЕННОГО ИНТЕЛЛЕКТА В ОБРАЗОВАТЕЛЬНЫЙ ВИДЕОКОНТЕНТ
Стогниева О. Н., Чеснокова Н. Е., Отечественная и зарубежная педагогика 2026 Т. 1 № 3 (115) С. 123–131
Внедрение генеративных инструментов искусственного интеллекта в образовательную практику актуализирует проблему педагогически обоснованного использования данных технологий при создании образовательного видеоконтента, который всё чаще применяется в языковом и профессионально-ориентированном обучении. Цель статьи — провести сравнительный анализ образовательного видеоконтента, созданного с применением генеративных ИИ-инструментов, с позиций теории когнитивной нагрузки и принципов педагогического дизайна, а также выявить дидактические условия повышения ...
Добавлено: 20 июня 2026 г.
Artificial intelligence and digital twins for failure prediction in data center cooling systems: a comprehensive literature review (2018–2026)
Butorova A., Bobakov V., Sergeev A. и др., European Physical Journal: Special Topics 2026 P. 1–19
Добавлено: 10 июня 2026 г.
Влияние шизофрении на лексический уровень языка
Унтила К. В., Тасенко О. А., В кн.: Современная лингвистика: ключ к диалогу. Труды и материалы IV Казанского международного лингвистического саммита.Т. 1: СОВРЕМЕННАЯ ЛИНГВИСТИКА: КЛЮЧ К ДИАЛОГУ.: Каз.: Издательство Казанского университета, 2024. С. 221–224.
Шизофрения – это хроническое психическое расстройство, которое выражается как комбинация психотических симптомов – таких как галлюцинации, бред и дезорганизация когнитивных функций. У многих пациентов с диагнозом шизофрения обнаруживаются нарушения речи. Для исследования были отобраны рассказы об истории из жизни из корпуса 3D. В качестве личных историй были собраны ответы на вопросы «Какой самый лучший или запоминающийся ...
Добавлено: 8 июня 2026 г.
Proceedings of the 43rd International Conference on Machine Learning (ICML 2026)
Seul: PMLR, 2026.
Добавлено: 4 июня 2026 г.
Towards the Ranking of the Importance of Revolutionary Destabilization Factors in Asian and African Countries Using Machine Learning Methods
Черноморченко И. Ю., Ilya Medvedev, Коротаев А. В., Cross-Cultural Research 2026 P. 1–49
This study investigates which structural factors most strongly predict armed and unarmed revolutionary destabilization across Sub-Saharan Africa (SSA), the Middle East and North Africa (MENA), as well as Asia using country–year data for 1950–2022 and a set of economic, demographic, political, and climatic indicators. It employs an interpretable machine learning framework (CatBoost with SHAP values ...
Добавлено: 1 июня 2026 г.
От неизвестности к прозрачности: обзор технологий объяснимого ИИ (XAI)
Авдошин С. М., Песоцкая Е. Ю., Информационные технологии 2026 Т. 32 № 4 С. 185–194
С развитием ИИ, и в особенности глубокого обучения, появились модели, способные давать крайне точные прогнозы. Однако их внутренняя логика остается трудной для понимания — и это серьезная проблема, особенно в сферах, где от корректности алгоритма зависят критиче ски важные решения. Одним из перспективных путей ее решения считается направление Explainable Artificial Intelligence (XAI) — разработка подходов, позволяющих прояснять ...
Добавлено: 8 мая 2026 г.
Explainable AI for Industry 5.0: Shedding light on the black box
Авдошин С. М., Песоцкая Е. Ю., Business Informatics 2026 Vol. 20 No. 1 P. 7–28
Добавлено: 8 мая 2026 г.
Современные методы анализа временных рядов в мониторинге и прогнозировании состояния оборудования для механизированной добычи
Незнанов А. А., Глушко А. А., Овчинников С. и др., В кн.: Интеллектуальный анализ данных в нефтегазовой отрасли.: М.: ООО «Геомодель Развитие», 2024. С. 140–143.
С развитием систем мониторинга мы получили возможность собирать ключевые показатели работы устройств в процессе механизированной добычи. Каждый день генерируется огромное количество телеметрии, которая пройдя процесс гармонизации и трансформации может быть использована для прогнозирования состояния оборудования. В докладе представлен обзор и произведён отбор современных математических методов и программных реализации инструментов анализа многомерных нерегулярных временных рядов для ...
Добавлено: 29 апреля 2026 г.
  • О ВЫШКЕ
  • Цифры и факты
  • Руководство и структура
  • Устойчивое развитие в НИУ ВШЭ
  • Преподаватели и сотрудники
  • Корпуса и общежития
  • Закупки
  • Обращения граждан в НИУ ВШЭ
  • Фонд целевого капитала
  • Противодействие коррупции
  • Сведения о доходах, расходах, об имуществе и обязательствах имущественного характера
  • Сведения об образовательной организации
  • Людям с ограниченными возможностями здоровья
  • Единая платежная страница
  • Работа в Вышке
  • ОБРАЗОВАНИЕ
  • Лицей
  • Довузовская подготовка
  • Олимпиады
  • Прием в бакалавриат
  • Вышка+
  • Прием в магистратуру
  • Аспирантура
  • Дополнительное образование
  • Центр развития карьеры
  • Бизнес-инкубатор ВШЭ
  • Образовательные партнерства
  • Обратная связь и взаимодействие с получателями услуг
  • НАУКА
  • Научные подразделения
  • Исследовательские проекты
  • Мониторинги
  • Диссертационные советы
  • Защиты диссертаций
  • Академическое развитие
  • Конкурсы и гранты
  • Внешние научно-информационные ресурсы
  • РЕСУРСЫ
  • Библиотека
  • Издательский дом ВШЭ
  • Книжный магазин «БукВышка»
  • Типография
  • Медиацентр
  • Журналы ВШЭ
  • Публикации
  • http://www.minobrnauki.gov.ru/
    Министерство науки и высшего образования РФ
  • https://edu.gov.ru/
    Министерство просвещения РФ
  • http://www.edu.ru
    Федеральный портал «Российское образование»
  • https://elearning.hse.ru/mooc
    Массовые открытые онлайн-курсы
  • НИУ ВШЭ1993–2026
  • Адреса и контакты
  • Условия использования материалов
  • Политика конфиденциальности
  • Правила применения рекомендательных технологий в НИУ ВШЭ
  • Карта сайта
Редактору