• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • A
  • A
  • A
  • A
  • A
Обычная версия сайта
  • RU
  • EN
  • Национальный исследовательский университет «Высшая школа экономики»
  • Публикации ВШЭ
  • Статьи
  • Automatic Morpheme Segmentation for Russian: Can an Algorithm Replace Experts?
  • RU
  • EN
Расширенный поиск
Высшая школа экономики
Национальный исследовательский университет
Приоритетные направления
  • бизнес-информатика
  • государственное и муниципальное управление
  • гуманитарные науки
  • инженерные науки
  • компьютерно-математическое
  • математика
  • менеджмент
  • право
  • социология
  • экономика
по году
  • 2027
  • 2026
  • 2025
  • 2024
  • 2023
  • 2022
  • 2021
  • 2020
  • 2019
  • 2018
  • 2017
  • 2016
  • 2015
  • 2014
  • 2013
  • 2012
  • 2011
  • 2010
  • 2009
  • 2008
  • 2007
  • 2006
  • 2005
  • 2004
  • 2003
  • 2002
  • 2001
  • 2000
  • 1999
  • 1998
  • 1997
  • 1996
  • 1995
  • 1994
  • 1993
  • 1992
  • 1991
  • 1990
  • 1989
  • 1988
  • 1987
  • 1986
  • 1985
  • 1984
  • 1983
  • 1982
  • 1981
  • 1980
  • 1979
  • 1978
  • 1977
  • 1976
  • 1975
  • 1974
  • 1973
  • 1972
  • 1971
  • 1970
  • 1969
  • 1968
  • 1967
  • 1966
  • 1965
  • 1964
  • 1963
  • 1958
  • еще
Тематика
Новости
15 июня 2026 г.
<a>Институт робототехнических систем ВШЭ запустил научно-технический семинар
Институт робототехнических систем (ИРС) ВШЭ запустил новый ежемесячный формат — Научно-технический семинар. Он объединяет сотрудников института, приглашенных экспертов, студентов, исследователей и представителей других подразделений НИУ ВШЭ для обсуждения актуальных задач мехатроники, робототехники и киберфизических систем.
11 июня 2026 г.
Время жизни популяций определяется законами математики
Исследователи НИУ ВШЭ и МГУ доказали универсальный закон, описывающий время исчезновения популяций в случайной среде. Анализ эволюции ветвящихся процессов — сложных вероятностных систем — показал, что вне зависимости от изначального числа особей процесс вымирания подчиняется строгим математическим закономерностям. Результаты опубликованы в Journal of Applied Probability.
8 июня 2026 г.
«За 12 лет на нашем счету почти 1000 операций с пробуждением»
В НИУ ВШЭ прошла XIII Летняя нейролингвистическая школа, организованная Центром языка и мозга при поддержке факультета гуманитарных наук НИУ ВШЭ. В центре внимания слушателей была совместная работа нейролингвистов, нейрохирургов и нейрофизиологов в операционной, стандартизация лингвистических парадигм и практические подходы к сохранению речевой функции пациентов.

 

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!

Публикации
  • Книги
  • Статьи
  • Главы в книгах
  • Препринты
  • Верификация публикаций
  • Расширенный поиск
  • Правила использования материалов
  • Наука в ВШЭ

?

Automatic Morpheme Segmentation for Russian: Can an Algorithm Replace Experts?

Journal of Language and Education. 2024. Vol. 10. No. 4. P. 71–84.
Morozov D., Garipov T., Ляшевская О. Н., Savchuk S., Иомдин Б. Л., Glazkova A.

Introduction: Numerous algorithms have been proposed for the task of automatic morpheme segmentation of Russian words. Due to the differences in task formulation and datasets utilized, comparing the quality of these algorithms is challenging. It is unclear whether the errors in the models are due to the ineffectiveness of algorithms themselves or to errors and inconsistencies in the morpheme dictionaries. Thus, it remains uncertain whether any algorithm can be used to automatically expand the existing morpheme dictionaries.

Purpose: To compare various existing algorithms of morpheme segmentation for the Russian language and analyze their applicability in the task of automatic augmentation of various existing morpheme dictionaries.

Results: In this study, we compared several state-of-the-art machine learning algorithms using three datasets structured around different segmentation paradigms. Two experiments were carried out, each employing five-fold cross-validation. In the first experiment, we randomly partitioned the dataset into five subsets. In the second, we grouped all words sharing the same root into a single subset, excluding words that contained multiple roots. During cross-validation, models were trained on four of these subsets and evaluated on the remaining one. Across both experiments, the algorithms that relied on ensembles of convolutional neural networks consistently demonstrated the highest performance. However, we observed a notable decline in accuracy when testing on words containing unfamiliar roots. We also found that, on a randomly selected set of words, the performance of these algorithms was comparable to that of human experts.

Conclusion: Our results indicate that although automatic methods have, on average, reached a quality close to expert level, the lack of semantic consideration makes it impossible to use them for automatic dictionary expansion without expert validation. The conducted research revealed that further research should be aimed at addressing the key identified issues: poor performance with unknown roots and acronyms. At the same time, when a small number of unfamiliar roots can be assumed in the test dataset, an ensemble of convolutional neural networks should be utilized. The presented results can be used in the development of morpheme-oriented tokenizers and systems for analyzing the complexity of texts.

Научное направление: Филология и лингвистика Компьютерные науки
Язык: английский
Полный текст
DOI
Текст на другом сайте
Ключевые слова: машинное обучениеnatural language processingавтоматическая обработка естественного языкаconvolutional neural networksmorphological analysisморфемный анализсверточные нейронные сетиморфология русского языка machine learningautomatic morpheme segmentationRussian language morphologydictionary expansionexpert-level performanceавтоматическая морфемное членениерасширение словарякачество экспертного уровня
Похожие публикации
Female aging in Eastern European advertising: semiosis, representation, reinterpretation
Запорожцева Л. Е., Semiotica 2026 P. 1–20
Добавлено: 16 июня 2026 г.
Русские тексты рубежа XVII–XVIII вв. в немецком издании «Травника» Маттиоли (Prag, 1563)
Лифшиц А. Л., Святохина Е. В., Одиссей: Человек в истории 2026 № 1 С. 156–173
Статья вводит в научный оборот новый источник по истории русского языка, науки и культуры конца XVII в. Многочисленные русские подписи к гравюрам были обнаружены в экземпляре «Травника» великого ренессансного ботаника и фармацевта Пьетро Андреа Маттиоли, изданного в Праге на немецком языке в 1563 г. Кроме транслитерации латинских названий, книга содержит чрезвычайно значительное число славянских фитонимов, ...
Добавлено: 15 июня 2026 г.
Дрожащие огни: что видел Лермонтов?
Лифшиц А. Л., Живая старина 2026 № 2 (130) С. 38–40
В заметке делается попытка увидеть ночной пейзаж глазами автора текста, давно ставшего школьной классикой. Традиционная интерпретация приписывает стихотворению народность, которой Лермонтов, вероятно, не имел в виду. Сопоставление с современными поэту текстами показывает, что родина Лермонтова не крестьянская, а мелкопоместная Россия степных губерний. ...
Добавлено: 15 июня 2026 г.
Колебания в употреблении протоартикля при одушевленных функциональных именах в готском языке и проблема «анафорической стадии» грамматикализации артикля
Пименова Н. Б., Индоевропейское языкознание и классическая филология 2026 Т. 30 № 2 С. 313–322
В статье анализируются некоторые примеры непоследовательного употребления анафорического артикля в готском языке (IV в. н.э., восточногерманская группа), который считается классическим примером языка, находящегося на первой, анафорической стадии грамматикализации артикля. Помимо описанных в литературе нарушений анафорического правила: контекстов с локативными именами и обозначениями ‘множества’ одушевленных лиц, — мы можем фиксировать неоднократные колебания артикля при именах berusjos, ...
Добавлено: 15 июня 2026 г.
A Note on the Qumran Version of Isa 5:18
von Büttner Сyrill, Textus 2024 No. 32/2 P. 156–167
Добавлено: 15 июня 2026 г.
Proceedings of the 19th Conference of the European Chapter of the Association for Computational Linguistics (Volume 1: Long Papers)
Association for Computational Linguistics, 2026.
Добавлено: 14 июня 2026 г.
Идеологема «искусственный интеллект» в образе сильного государства (по материалам российского и китайского медиадискурсов)
Романова Т. В., Бинштейн М. М., Медиалингвистика 2026 Т. 13 № 1 С. 28–50
В данной статье противопоставляется узкое и широкое понимание содержание термина ИИ, фиксируется история его появления. Функционирование термина ИИ рассматривается  в сопоставительном аспекте по данным российских и китайских медийных источников: ...
Добавлено: 14 июня 2026 г.
Proceedings of the 6th Workshop on Computational Approaches to Discourse, Context and Document-Level Inferences (CODI 2025)
Strube M., Braud C., Hardmeier C. и др., Suzhou: Association for Computational Linguistics, 2025.
Добавлено: 11 июня 2026 г.
Самосознание в зеркале метафоры: квантитативный анализ метафорической системы раннего творчества Уоллеса Стивенса (1879–1955)
Чихачева Д. В., Человек: образ и сущность. Гуманитарные аспекты 2026 № 2 С. 217–228
Данное исследование фокусируется на раннем периоде творчества американского поэта Уоллеса Стивенса. Проведенный квантитативный анализ позволил определить доминанты метафорической системы этого периода творчества. Было установлено, что центральным смыслообразующим концептом в метафорике раннего творчества У. Стивенса выступает «СУЩЕСТВО». Исследование показывает, что поэтическая картина мира автора в этот период характеризуется тотальным панвитализмом – У. Стивенс наделяет атрибутами субъектности ...
Добавлено: 11 июня 2026 г.
TreeDQN: Sample-efficient off-policy reinforcement learning for combinatorial optimization
Sorokin D., Kostin A., Савченко Л. В. и др., Knowledge-Based Systems 2026 Vol. 348 Article 116258
Добавлено: 10 июня 2026 г.
Microbial diversity and production of milk spirit using traditional Buryat fermentation and distillation technologies
Namsaraev Z., Nanzatov B., Козлова А. Д. и др., Scientific Reports 2026 Vol. 16 No. 1 Article 17769
Дистиллированные кисломолочные напитки встречаются в пищевой промышленности редко, несмотря на повсеместное распространение растительных спиртных напитков. В настоящее время производство крепких дистиллированных алкогольных напитков из кисломолочных продуктов с использованием традиционных технологий известно лишь среди монголоязычных народов и их сибирских соседей. Данное исследование представляет собой первый междисциплинарный анализ дарасуна, традиционного бурятского спиртного напитка, изготавливаемого из кисломолочного напитка ...
Добавлено: 10 июня 2026 г.
«Увидел он гордеца павшим…» Мятеж Амасиса против Априя и египетский поход Навуходоносора II в древней и средневековой традиции
Ладынин И. А., Немировский А. А., Банщикова А. А. и др., М.: Издательство «Альма Матер», 2026.
В коллективной монографии подробно анализируются источники, связанные с предысторией, ходом и последствиями малоизвестного эпизода истории древнего Египта и Ближнего Востока – узурпации власти в Египте военачальником Амасисом у царя XXVI династии Априя (570-567 гг. до н.э.) и вмешательства в их противостояние вавилонского царя Навуходоносора II (567 г. до н.э.). Рассматривается значимость этого эпизода в восприятии ...
Добавлено: 10 июня 2026 г.
Artificial intelligence and digital twins for failure prediction in data center cooling systems: a comprehensive literature review (2018–2026)
Butorova A., Bobakov V., Sergeev A. и др., European Physical Journal: Special Topics 2026 P. 1–19
Добавлено: 10 июня 2026 г.
Влияние шизофрении на лексический уровень языка
Унтила К. В., Тасенко О. А., В кн.: Современная лингвистика: ключ к диалогу. Труды и материалы IV Казанского международного лингвистического саммита.Т. 1: СОВРЕМЕННАЯ ЛИНГВИСТИКА: КЛЮЧ К ДИАЛОГУ.: Каз.: Издательство Казанского университета, 2024. С. 221–224.
Шизофрения – это хроническое психическое расстройство, которое выражается как комбинация психотических симптомов – таких как галлюцинации, бред и дезорганизация когнитивных функций. У многих пациентов с диагнозом шизофрения обнаруживаются нарушения речи. Для исследования были отобраны рассказы об истории из жизни из корпуса 3D. В качестве личных историй были собраны ответы на вопросы «Какой самый лучший или запоминающийся ...
Добавлено: 8 июня 2026 г.
Proceedings of the 43rd International Conference on Machine Learning (ICML 2026)
Seul: PMLR, 2026.
Добавлено: 4 июня 2026 г.
Towards the Ranking of the Importance of Revolutionary Destabilization Factors in Asian and African. Countries Using Machine Learning Methods
Черноморченко И. Ю., Ilya Medvedev, Коротаев А. В., Cross-Cultural Research 2026 P. 1–49
This study investigates which structural factors most strongly predict armed and unarmed revolutionary destabilization across Sub-Saharan Africa (SSA), the Middle East and North Africa (MENA), as well as Asia using country–year data for 1950–2022 and a set of economic, demographic, political, and climatic indicators. It employs an interpretable machine learning framework (CatBoost with SHAP values ...
Добавлено: 1 июня 2026 г.
От неизвестности к прозрачности: обзор технологий объяснимого ИИ (XAI)
Авдошин С. М., Песоцкая Е. Ю., Информационные технологии 2026 Т. 32 № 4 С. 185–194
С развитием ИИ, и в особенности глубокого обучения, появились модели, способные давать крайне точные прогнозы. Однако их внутренняя логика остается трудной для понимания — и это серьезная проблема, особенно в сферах, где от корректности алгоритма зависят критиче ски важные решения. Одним из перспективных путей ее решения считается направление Explainable Artificial Intelligence (XAI) — разработка подходов, позволяющих прояснять ...
Добавлено: 8 мая 2026 г.
Explainable AI for Industry 5.0: Shedding light on the black box
Авдошин С. М., Песоцкая Е. Ю., Business Informatics 2026 Vol. 20 No. 1 P. 7–28
Добавлено: 8 мая 2026 г.
Современные методы анализа временных рядов в мониторинге и прогнозировании состояния оборудования для механизированной добычи
Незнанов А. А., Глушко А. А., Овчинников С. и др., В кн.: Интеллектуальный анализ данных в нефтегазовой отрасли.: М.: ООО «Геомодель Развитие», 2024. С. 140–143.
С развитием систем мониторинга мы получили возможность собирать ключевые показатели работы устройств в процессе механизированной добычи. Каждый день генерируется огромное количество телеметрии, которая пройдя процесс гармонизации и трансформации может быть использована для прогнозирования состояния оборудования. В докладе представлен обзор и произведён отбор современных математических методов и программных реализации инструментов анализа многомерных нерегулярных временных рядов для ...
Добавлено: 29 апреля 2026 г.
Machine Learning Approach to Anticancer Activity Prediction of Transition-Metal Complexes Based on a Large-Scale Experimental Database
Krasnov L., Malikov D., Kiseleva M. и др., Journal of Medicinal Chemistry 2026 Vol. 69 No. 8 P. 8838–8851
Добавлено: 23 апреля 2026 г.
LSTM-модель потребления тепловой энергии в многоэтажном жилом здании
Ершов И. А., Системная инженерия и инфокоммуникации 2025 № 4 С. 11–14
Теплопотребление жилых зданий представляет собой стохастический ряд, создание нейросетевой модели для которого необходимо для проектирования регуляторов тепловой энергии. В статье модель разработана с применением "длинной цепи элементов краткосрочной памяти" (LSTM, Long Short-Term Memory). Высокая точность воспроизведения рядов достигнута обучением модели на наборе данных города Томска 2013-2023 г.г. При моделировании учтены характеристики зданий и температура наружного воздуха. ...
Добавлено: 22 апреля 2026 г.
Алгоритм анализа новостной информации для принятия экономических решений
Чудинова О. С., Первицкая Л. А., Раменская А. В., Индустриальная экономика 2026 № 1 С. 65–78
Статья посвящена разработке алгоритма анализа новостной информации методами машинного обучения, реализованными в библиотеках Python. Обоснование выбора инструментов, применяемых на каждом этапе алгоритма, осуществляется с помощью расчета метрик качества решения соответствующих задач машинного обучения. Результаты работы алгоритма представлены классификацией региональных новостей, собранных за период с августа 2024 года по июнь 2025 года, по отраслям экономики и ...
Добавлено: 20 апреля 2026 г.
Modeling cosolvent effects on solubility in supercritical CO2 using data-driven approaches
Makarov D. M., Каликин Н. Н., Gurikov P. и др., Journal of Supercritical Fluids 2026 Vol. 235 Article 106979
Добавлено: 19 апреля 2026 г.
Эффективность применения прогнозов волатильности в активных торговых стратегиях институциональных инвесторов на российском рынке акций
Лысенок Н. И., Фундаментальная и прикладная математика 2026 Т. 26 № 3 С. 33–42
Исследование посвящено оценке влияния прогнозов реализованной волатильности на результаты активных торговых стратегий на российском рынке акций. На выборке 17 ликвидных акций за 2014-2026 гг. построена гибридная прогнозная модель, объединяющая HAR-J и градиентный бустинг; её преимущество над базовой HAR-J подтверждено тестом Дибольда-Мариано (p < 0,001). Шесть направленных стратегий трёх категорий протестированы с тремя механизмами интеграции прогнозов и без них. ...
Добавлено: 17 апреля 2026 г.
  • О ВЫШКЕ
  • Цифры и факты
  • Руководство и структура
  • Устойчивое развитие в НИУ ВШЭ
  • Преподаватели и сотрудники
  • Корпуса и общежития
  • Закупки
  • Обращения граждан в НИУ ВШЭ
  • Фонд целевого капитала
  • Противодействие коррупции
  • Сведения о доходах, расходах, об имуществе и обязательствах имущественного характера
  • Сведения об образовательной организации
  • Людям с ограниченными возможностями здоровья
  • Единая платежная страница
  • Работа в Вышке
  • ОБРАЗОВАНИЕ
  • Лицей
  • Довузовская подготовка
  • Олимпиады
  • Прием в бакалавриат
  • Вышка+
  • Прием в магистратуру
  • Аспирантура
  • Дополнительное образование
  • Центр развития карьеры
  • Бизнес-инкубатор ВШЭ
  • Образовательные партнерства
  • Обратная связь и взаимодействие с получателями услуг
  • НАУКА
  • Научные подразделения
  • Исследовательские проекты
  • Мониторинги
  • Диссертационные советы
  • Защиты диссертаций
  • Академическое развитие
  • Конкурсы и гранты
  • Внешние научно-информационные ресурсы
  • РЕСУРСЫ
  • Библиотека
  • Издательский дом ВШЭ
  • Книжный магазин «БукВышка»
  • Типография
  • Медиацентр
  • Журналы ВШЭ
  • Публикации
  • http://www.minobrnauki.gov.ru/
    Министерство науки и высшего образования РФ
  • https://edu.gov.ru/
    Министерство просвещения РФ
  • http://www.edu.ru
    Федеральный портал «Российское образование»
  • https://elearning.hse.ru/mooc
    Массовые открытые онлайн-курсы
  • НИУ ВШЭ1993–2026
  • Адреса и контакты
  • Условия использования материалов
  • Политика конфиденциальности
  • Правила применения рекомендательных технологий в НИУ ВШЭ
  • Карта сайта
Редактору