• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • A
  • A
  • A
  • A
  • A
Обычная версия сайта
  • RU
  • EN
  • Национальный исследовательский университет «Высшая школа экономики»
  • Публикации ВШЭ
  • Статьи
  • Automatic Morpheme Segmentation for Russian: Can an Algorithm Replace Experts?
  • RU
  • EN
Расширенный поиск
Высшая школа экономики
Национальный исследовательский университет
Приоритетные направления
  • бизнес-информатика
  • государственное и муниципальное управление
  • гуманитарные науки
  • инженерные науки
  • компьютерно-математическое
  • математика
  • менеджмент
  • право
  • социология
  • экономика
по году
  • 2027
  • 2026
  • 2025
  • 2024
  • 2023
  • 2022
  • 2021
  • 2020
  • 2019
  • 2018
  • 2017
  • 2016
  • 2015
  • 2014
  • 2013
  • 2012
  • 2011
  • 2010
  • 2009
  • 2008
  • 2007
  • 2006
  • 2005
  • 2004
  • 2003
  • 2002
  • 2001
  • 2000
  • 1999
  • 1998
  • 1997
  • 1996
  • 1995
  • 1994
  • 1993
  • 1992
  • 1991
  • 1990
  • 1989
  • 1988
  • 1987
  • 1986
  • 1985
  • 1984
  • 1983
  • 1982
  • 1981
  • 1980
  • 1979
  • 1978
  • 1977
  • 1976
  • 1975
  • 1974
  • 1973
  • 1972
  • 1971
  • 1970
  • 1969
  • 1968
  • 1967
  • 1966
  • 1965
  • 1964
  • 1963
  • 1958
  • еще
Тематика
Новости
19 мая 2026 г.
Физики НИУ ВШЭ выяснили, что происходит внутри устойчивого вихря
В атмосфере и в океане часто наблюдаются крупные вихри с характерными спиральными рукавами. Физики из НИУ ВШЭ объяснили, как они формируются и почему сохраняют свою структуру. Оказалось, что скорости в точках, расположенных вдоль одной дуги вихря, остаются связанными даже на больших расстояниях. При этом в направлении от центра вихря эта связь быстро ослабевает. Такие различия помогают объяснить образование рукавов и могут улучшить модели атмосферных и океанических течений. Результаты опубликованы в Physical Review Fluids.
18 мая 2026 г.
В Вышке прошла XXX юбилейная научно-техническая конференция имени Е.В. Арменского
Организатором научного события выступает Московский институт электроники и математики им. А.Н. Тихонова ВШЭ. В этом году главный инженерный студенческий форум проходил 30-й раз и собрал рекордное число участников. Студенты, аспиранты и молодые специалисты из 50 вузов и организаций России представили научно-исследовательские доклады в ИТ-области. Отдельная секция была посвящена научно-исследовательским работам школьников.
15 мая 2026 г.
В НИУ ВШЭ разрабатывают нейросеть для сферы науки и инноваций
Исследователи НИУ ВШЭ учат большие языковые модели понимать русскоязычную научную терминологию, увеличивая при этом их энергоэффективность. Адаптированная модель работает в 2,7 раза быстрее и требует на 73% меньше памяти, чем исходная открытая модель, что позволяет запускать ее на более доступном оборудовании. Программа прошла государственную регистрацию.

 

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!

Публикации
  • Книги
  • Статьи
  • Главы в книгах
  • Препринты
  • Верификация публикаций
  • Расширенный поиск
  • Правила использования материалов
  • Наука в ВШЭ

?

Automatic Morpheme Segmentation for Russian: Can an Algorithm Replace Experts?

Journal of Language and Education. 2024. Vol. 10. No. 4. P. 71–84.
Morozov D., Garipov T., Ляшевская О. Н., Savchuk S., Иомдин Б. Л., Glazkova A.

Introduction: Numerous algorithms have been proposed for the task of automatic morpheme segmentation of Russian words. Due to the differences in task formulation and datasets utilized, comparing the quality of these algorithms is challenging. It is unclear whether the errors in the models are due to the ineffectiveness of algorithms themselves or to errors and inconsistencies in the morpheme dictionaries. Thus, it remains uncertain whether any algorithm can be used to automatically expand the existing morpheme dictionaries.

Purpose: To compare various existing algorithms of morpheme segmentation for the Russian language and analyze their applicability in the task of automatic augmentation of various existing morpheme dictionaries.

Results: In this study, we compared several state-of-the-art machine learning algorithms using three datasets structured around different segmentation paradigms. Two experiments were carried out, each employing five-fold cross-validation. In the first experiment, we randomly partitioned the dataset into five subsets. In the second, we grouped all words sharing the same root into a single subset, excluding words that contained multiple roots. During cross-validation, models were trained on four of these subsets and evaluated on the remaining one. Across both experiments, the algorithms that relied on ensembles of convolutional neural networks consistently demonstrated the highest performance. However, we observed a notable decline in accuracy when testing on words containing unfamiliar roots. We also found that, on a randomly selected set of words, the performance of these algorithms was comparable to that of human experts.

Conclusion: Our results indicate that although automatic methods have, on average, reached a quality close to expert level, the lack of semantic consideration makes it impossible to use them for automatic dictionary expansion without expert validation. The conducted research revealed that further research should be aimed at addressing the key identified issues: poor performance with unknown roots and acronyms. At the same time, when a small number of unfamiliar roots can be assumed in the test dataset, an ensemble of convolutional neural networks should be utilized. The presented results can be used in the development of morpheme-oriented tokenizers and systems for analyzing the complexity of texts.

Научное направление: Филология и лингвистика Компьютерные науки
Язык: английский
Полный текст
DOI
Текст на другом сайте
Ключевые слова: машинное обучениеnatural language processingавтоматическая обработка естественного языкаconvolutional neural networksmorphological analysisморфемный анализсверточные нейронные сетиморфология русского языка machine learningautomatic morpheme segmentationRussian language morphologydictionary expansionexpert-level performanceавтоматическая морфемное членениерасширение словарякачество экспертного уровня
Похожие публикации
KMHCR: A Key-Controlled Signal-Domain Transformation for 5G IoT Security
Ronglin Z., Wei L., Jiahong C. и др., Journal of Signal Processing Systems 2026 Vol. 98 P. 1–15
Добавлено: 16 мая 2026 г.
DPN Verifier: Инструментарий для ускоренной верификации и исправления дефектных моделей процессов с данными
Суворов Н. М., Proceedings of the Institute for System Programming of the RAS 2026 Vol. 38 No. 3(2) P. 49–66
Сети Петри с данными (DPN) являются расширением классических сетей Петри, позволяющим моделировать процессы, где данные влияют на поток управления, обеспечивая комплексное представление о поведении системы и возможность обнаружения точек отказа, которые в противном случае были бы скрыты. Одним из критериев корректности для моделей процессов является бездефектность. Модель процесса называется бездефектной, если она всегда корректно завершается ...
Добавлено: 16 мая 2026 г.
КОГНИТИВНО-АССОЦИАТИВНОЕ ПОЛЕ ОНИМОВ САНКТ-ПЕТЕРБУРГА И ВЕНЫ
Зелинская Ю. Ю., Когнитивные исследования языка 2025 № 4(65) С. 180–186
Статья посвящена исследованию онима как когнитивного стимула, способствующего декодированию языка городского пространства двух этносов. Основу исследования составляет анализ результатов ономастического ассоциативного эксперимента, целью которого было выявление доминирующих типов ассоциативных реакций на антропонимы, ойкодонимы, годонимы и ресторонимы Санкт-Петербурга и Вены. Выявленные реакции отображают сформированный ментальный ономастикон респондентов. ...
Добавлено: 16 мая 2026 г.
Лично-числовая асимметрия: согласование пассивных миративов в казымском диалекте хантыйского языка
Старченко А. М., Толдова С. Ю., Типология морфосинтаксических параметров 2023 Т. 6 № 1 С. 130–148
Работа рассматривает ранее не засвидетельствованную модель расщеплённого согласования в парадигме миратива в казымском диалекте хантыйского языка. Расщеплённое согласование выявляется при сравнении активной и пассивной миративных конструкций, а также в ограниченном наборе употреблений нефинитных форм и выражается в том, что в пассивном залоге, в отличие от активного, 3 лицо немаркировано — наблюдается согласование только по числу. ...
Добавлено: 14 мая 2026 г.
QGKM: A Quantum Fidelity-Based Graph Clustering Framework for Robust Data Pattern Recognition in Education Social Networks QGKM: A Quantum Fidelity-Based Graph Clustering Framework for Robust Data Pattern Recognition in Education Social Networks
Neal N. X., Weiqing L., Dacheng H. и др., Algorithms 2026 Vol. 19 No. 5 P. 1–22
Добавлено: 13 мая 2026 г.
Глаголы перемещения веществ в славянских языках
Федоров Д. Г., Jezikoslovni Zapiski 2026 № 32(1) С. 23–52
В статье описываются глаголы перемещения жидких и сухих веществ в славянских языках. В ходе работы рассматривается, как славянские языки лексикализуют различные ситуации в рамках семантического поля перемещения веществ, и выделяются параметры которые определяют эту лексикализацию (напр., тип вещества, интенсивность и квантованность потока, каузация). Смежные грамматические явления, такие как мена диатезы и лабильность, также играют роль ...
Добавлено: 13 мая 2026 г.
Образ женщины сквозь года: диахронический анализ репрезентации женщин в российской агитационной рекламе
Габриелова Е. В., Максименко О. И., Социальные и гуманитарные науки на Дальнем Востоке 2026 Т. 23 № 1 С. 241–249
В статье представлен диахронический анализ репрезентации женщины в российской рекламе на материале агитационных плакатов 1917 - 1990 годов и социальных и мотивационных рекламных материалов 2000 - 2020 годов. Целью исследования является выявление эволюции вербальных и визуальных стратегий конструирования женского образа в контексте изменений социально-политической и культурной среды, в основу которых легла память поколений. В теоретической ...
Добавлено: 13 мая 2026 г.
Proceedings of the 9th Student Research Workshop associated with the International Conference Recent Advances in Natural Language Processing
Velichkov B., Nikolova-Koleva I., Slavcheva M., Shumen: INCOMA Ltd, 2025.
Добавлено: 12 мая 2026 г.
Интегрированная среда моделирования для верификации и валидации программ управления подключенными и высокоавтоматизированными транспортными средствами
Степанянц В. Г., Долгов И. М., Хорошилов Г. С. и др., Труды Института системного программирования РАН 2026 Т. 38 № 3 С. 95–110
На рынок постепенно выходят высокоавтоматизированные и подключенные транспортные средства (ТС). В настоящее время предлагаются решения, позволяющие использовать эти технологии для совместного управления дорожным движением, что может значительно повысить его безопасность. В статье анализируются требования к интегрированной среде моделирования подключенных и высокоавтоматизированных ТС и совместной автоматизации управления дорожным движением с высокодетализированным учетом влияния окружающих объектов. Проанализированы ...
Добавлено: 12 мая 2026 г.
Connected and Automated Vehicle Scenario Manager Graphical User Interface
Тихонов Р. А., Efendiev M. T., Fedotenkov A. A., 2026 International Russian Smart Industry Conference (SmartIndustryCon) 2026 P. 542–547
Добавлено: 11 мая 2026 г.
От неизвестности к прозрачности: обзор технологий объяснимого ИИ (XAI)
Авдошин С. М., Песоцкая Е. Ю., Информационные технологии 2026 Т. 32 № 4 С. 185–194
С развитием ИИ, и в особенности глубокого обучения, появились модели, способные давать крайне точные прогнозы. Однако их внутренняя логика остается трудной для понимания — и это серьезная проблема, особенно в сферах, где от корректности алгоритма зависят критиче ски важные решения. Одним из перспективных путей ее решения считается направление Explainable Artificial Intelligence (XAI) — разработка подходов, позволяющих прояснять ...
Добавлено: 8 мая 2026 г.
Explainable AI for Industry 5.0: Shedding light on the black box
Авдошин С. М., Песоцкая Е. Ю., Business Informatics 2026 Vol. 20 No. 1 P. 7–28
Добавлено: 8 мая 2026 г.
Современные методы анализа временных рядов в мониторинге и прогнозировании состояния оборудования для механизированной добычи
Глушко А. А., Незнанов А. А., Овчинников С. и др., В кн.: Интеллектуальный анализ данных в нефтегазовой отрасли.: М.: ООО «Геомодель Развитие», 2024. С. 140–143.
С развитием систем мониторинга мы получили возможность собирать ключевые показатели работы устройств в процессе механизированной добычи. Каждый день генерируется огромное количество телеметрии, которая пройдя процесс гармонизации и трансформации может быть использована для прогнозирования состояния оборудования. В докладе представлен обзор и произведён отбор современных математических методов и программных реализации инструментов анализа многомерных нерегулярных временных рядов для ...
Добавлено: 29 апреля 2026 г.
Machine Learning Approach to Anticancer Activity Prediction of Transition-Metal Complexes Based on a Large-Scale Experimental Database
Krasnov L., Malikov D., Kiseleva M. и др., Journal of Medicinal Chemistry 2026 Vol. 69 No. 8 P. 8838–8851
Добавлено: 23 апреля 2026 г.
LSTM-модель потребления тепловой энергии в многоэтажном жилом здании
Ершов И. А., Системная инженерия и инфокоммуникации 2025 № 4 С. 11–14
Теплопотребление жилых зданий представляет собой стохастический ряд, создание нейросетевой модели для которого необходимо для проектирования регуляторов тепловой энергии. В статье модель разработана с применением "длинной цепи элементов краткосрочной памяти" (LSTM, Long Short-Term Memory). Высокая точность воспроизведения рядов достигнута обучением модели на наборе данных города Томска 2013-2023 г.г. При моделировании учтены характеристики зданий и температура наружного воздуха. ...
Добавлено: 22 апреля 2026 г.
Алгоритм анализа новостной информации для принятия экономических решений
Раменская А. В., Чудинова О. С., Первицкая Л. А., Индустриальная экономика 2026 № 1 С. 65–78
Статья посвящена разработке алгоритма анализа новостной информации методами машинного обучения, реализованными в библиотеках Python. Обоснование выбора инструментов, применяемых на каждом этапе алгоритма, осуществляется с помощью расчета метрик качества решения соответствующих задач машинного обучения. Результаты работы алгоритма представлены классификацией региональных новостей, собранных за период с августа 2024 года по июнь 2025 года, по отраслям экономики и ...
Добавлено: 20 апреля 2026 г.
Modeling cosolvent effects on solubility in supercritical CO2 using data-driven approaches
Makarov D. M., Каликин Н. Н., Gurikov P. и др., Journal of Supercritical Fluids 2026 Vol. 235 Article 106979
Добавлено: 19 апреля 2026 г.
Эффективность применения прогнозов волатильности в активных торговых стратегиях институциональных инвесторов на российском рынке акций
Лысенок Н. И., Фундаментальная и прикладная математика 2026 Т. 26 № 3 С. 33–42
Исследование посвящено оценке влияния прогнозов реализованной волатильности на результаты активных торговых стратегий на российском рынке акций. На выборке 17 ликвидных акций за 2014-2026 гг. построена гибридная прогнозная модель, объединяющая HAR-J и градиентный бустинг; её преимущество над базовой HAR-J подтверждено тестом Дибольда-Мариано (p < 0,001). Шесть направленных стратегий трёх категорий протестированы с тремя механизмами интеграции прогнозов и без них. ...
Добавлено: 17 апреля 2026 г.
Особые экономические зоны Российской Федерации: моделирование решений потенциальных резидентов и процесса их генерации
Плесовских А. Е., Journal of Applied Economic Research 2023 Т. 22 № 2 С. 323–354
В современных исследованиях широко обсуждается роль особых экономических зон в стимулировании экономического роста и развития России, формировании необходимых инвестиционных потоков и повышении инновационного потенциала страны за счет расширения производства продукции в высокотехнологичных отраслях экономики с высокой добавленной стоимостью. Цель исследования – моделирование процесса генерации резидентов и детерминация количественных факторов, оказывающих статистически значимый эффект на среднегодовой ...
Добавлено: 13 апреля 2026 г.
Опыт генерации оценок эмоциональной валентности и возбуждения слов на основе символьно-уровневой CNN
Люсин Д. В., Валуева Е. А., Сысоева Т. А., В кн.: Психология познания: Материалы Всероссийской научной конференции, ЯрГУ, Институт психологии РАН, 5–6 декабря 2025 г.: Институт психологии РАН, 2026. С. 310–314.
Эмоциональная окраска слов широко используются в  различных академических и прикладных исследованиях, от анализа текстов до понимания когнитивных процессов. Актуальной задачей является создание объёмных датасетов с оценками слов по ряду эмоциональных параметров. Современные методы машинного обучения, основанные на семантической близости слов, извлекаемой из текстовых корпусов, демонстрируют высокие корреляции с человеческими оценками, однако иногда наблюдаются существенные расхождения. ...
Добавлено: 10 апреля 2026 г.
Нейросетевые инструменты в арсенале вузовского преподавателя
Федоров А. О., Вакку Г. В., Лебедева С. Э., Галактика медиа: журнал медиа исследований 2026 Т. 8 № 2 С. 163–182
С увеличением объемов данных преподаватель вуза может потратить годы на обработку и  систематизацию информации. Персонализированная помощь, рекомендации по контенту, сбор данных для обзоров литературы и оформление библиографических ссылок укрепляют роль искусственного интеллекта как эффективного нейросетевого инструмента научной коммуникации. В данной статье рассматриваются практические примеры использования таких инструментов, как Elicit, SciSpace, Consensus, Undermind и Paperfinder, для упрощения ...
Добавлено: 7 апреля 2026 г.
Efficiency of Machine Learning Tasks on HPC Devices
Ефремов А. М., Тимофеев А. В., Ilyasov Y. и др., , in: ПАРАЛЛЕЛЬНЫЕ ВЫЧИСЛИТЕЛЬНЫЕ ТЕХНОЛОГИИ (ПаВТ’2025).: Издательский центр Южно-Уральского государственного университета, 2025. P. 56–81.
Добавлено: 4 апреля 2026 г.
Применение ML в целях повышения помехоустойчивости сигналов
Ефремов А. М., Портной С. Л., Волошин А. Д., Первая миля 2025 № 8 С. 20–28
Выполнен комплексный обзор методов машинного обучения (ML), применяемых для повышения устойчивости сигнала к помехам в каналах связи. Бурное развитие поколений беспроводной связи, активная разработка концепции 6G предъявляют высокие требования к задержке, скорости и надежности передачи данных. Традиционные подходы к защите от помех, основанные на строгих аналитических моделях, зачастую не справляются с хаотичной природой плотных гетерогенных ...
Добавлено: 4 апреля 2026 г.
Replacing Criterion of Creativity with Criterion of Investment for Results Created by Artificial Intelligence
Пакшин П. К., Legal Issues in the Digital Age 2026 Vol. 7 No. 1 P. 32–48
Искусственный интеллект выполняет значимую функцию в процессе автоматизации, минимизируя операционное участие человека в таких сферах, как медицина, искусство и юриспруденция. Несмотря на исторически тесную взаимосвязь искусства и технологий, именно генеративный искусственный интеллект расширил потенциал для творческой деятельности. Существенным катализатором этого процесса стало распространение предобученных систем искусственного интеллекта, интенсифицировавших развитие технологий в области обработки естественного языка ...
Добавлено: 31 марта 2026 г.
  • О ВЫШКЕ
  • Цифры и факты
  • Руководство и структура
  • Устойчивое развитие в НИУ ВШЭ
  • Преподаватели и сотрудники
  • Корпуса и общежития
  • Закупки
  • Обращения граждан в НИУ ВШЭ
  • Фонд целевого капитала
  • Противодействие коррупции
  • Сведения о доходах, расходах, об имуществе и обязательствах имущественного характера
  • Сведения об образовательной организации
  • Людям с ограниченными возможностями здоровья
  • Единая платежная страница
  • Работа в Вышке
  • ОБРАЗОВАНИЕ
  • Лицей
  • Довузовская подготовка
  • Олимпиады
  • Прием в бакалавриат
  • Вышка+
  • Прием в магистратуру
  • Аспирантура
  • Дополнительное образование
  • Центр развития карьеры
  • Бизнес-инкубатор ВШЭ
  • Образовательные партнерства
  • Обратная связь и взаимодействие с получателями услуг
  • НАУКА
  • Научные подразделения
  • Исследовательские проекты
  • Мониторинги
  • Диссертационные советы
  • Защиты диссертаций
  • Академическое развитие
  • Конкурсы и гранты
  • Внешние научно-информационные ресурсы
  • РЕСУРСЫ
  • Библиотека
  • Издательский дом ВШЭ
  • Книжный магазин «БукВышка»
  • Типография
  • Медиацентр
  • Журналы ВШЭ
  • Публикации
  • http://www.minobrnauki.gov.ru/
    Министерство науки и высшего образования РФ
  • https://edu.gov.ru/
    Министерство просвещения РФ
  • http://www.edu.ru
    Федеральный портал «Российское образование»
  • https://elearning.hse.ru/mooc
    Массовые открытые онлайн-курсы
  • НИУ ВШЭ1993–2026
  • Адреса и контакты
  • Условия использования материалов
  • Политика конфиденциальности
  • Правила применения рекомендательных технологий в НИУ ВШЭ
  • Карта сайта
Редактору