• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • A
  • A
  • A
  • A
  • A
Обычная версия сайта
  • RU
  • EN
  • Национальный исследовательский университет «Высшая школа экономики»
  • Публикации ВШЭ
  • Статьи
  • Automatic Morpheme Segmentation for Russian: Can an Algorithm Replace Experts?
  • RU
  • EN
Расширенный поиск
Высшая школа экономики
Национальный исследовательский университет
Приоритетные направления
  • бизнес-информатика
  • государственное и муниципальное управление
  • гуманитарные науки
  • инженерные науки
  • компьютерно-математическое
  • математика
  • менеджмент
  • право
  • социология
  • экономика
по году
  • 2027
  • 2026
  • 2025
  • 2024
  • 2023
  • 2022
  • 2021
  • 2020
  • 2019
  • 2018
  • 2017
  • 2016
  • 2015
  • 2014
  • 2013
  • 2012
  • 2011
  • 2010
  • 2009
  • 2008
  • 2007
  • 2006
  • 2005
  • 2004
  • 2003
  • 2002
  • 2001
  • 2000
  • 1999
  • 1998
  • 1997
  • 1996
  • 1995
  • 1994
  • 1993
  • 1992
  • 1991
  • 1990
  • 1989
  • 1988
  • 1987
  • 1986
  • 1985
  • 1984
  • 1983
  • 1982
  • 1981
  • 1980
  • 1979
  • 1978
  • 1977
  • 1976
  • 1975
  • 1974
  • 1973
  • 1972
  • 1971
  • 1970
  • 1969
  • 1968
  • 1967
  • 1966
  • 1965
  • 1964
  • 1963
  • 1958
  • еще
Тематика
Новости
11 июня 2026 г.
Время жизни популяций определяется законами математики
Исследователи НИУ ВШЭ и МГУ доказали универсальный закон, описывающий время исчезновения популяций в случайной среде. Анализ эволюции ветвящихся процессов — сложных вероятностных систем — показал, что вне зависимости от изначального числа особей процесс вымирания подчиняется строгим математическим закономерностям. Результаты опубликованы в Journal of Applied Probability.
8 июня 2026 г.
«За 12 лет на нашем счету почти 1000 операций с пробуждением»
В НИУ ВШЭ прошла XIII Летняя нейролингвистическая школа, организованная Центром языка и мозга при поддержке факультета гуманитарных наук НИУ ВШЭ. В центре внимания слушателей была совместная работа нейролингвистов, нейрохирургов и нейрофизиологов в операционной, стандартизация лингвистических парадигм и практические подходы к сохранению речевой функции пациентов.
5 июня 2026 г.
Аспирантка НИУ ВШЭ открыла «невидимую» планировку античного Париона
Исследовательница из НИУ ВШЭ Идиль Малгиль изучила с помощью дрона с лазерным сканером сверхвысокого разрешения древнеримский город Парион, расположенный на территории современной Турции. Благодаря высокой плотности сканирования удалось зафиксировать крошечные неровности рельефа, скрытые под землей и растительностью. Обнаружены следы целых кварталов, террасных систем и стен, которые невозможно было различить ни при обычных раскопках, ни с помощью аэрофотосъемки. Результаты исследованияо публикованы в международном научном журнале Ancient Civilizations from Scythia to Siberia.

 

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!

Публикации
  • Книги
  • Статьи
  • Главы в книгах
  • Препринты
  • Верификация публикаций
  • Расширенный поиск
  • Правила использования материалов
  • Наука в ВШЭ

?

Automatic Morpheme Segmentation for Russian: Can an Algorithm Replace Experts?

Journal of Language and Education. 2024. Vol. 10. No. 4. P. 71–84.
Morozov D., Garipov T., Ляшевская О. Н., Savchuk S., Иомдин Б. Л., Glazkova A.

Introduction: Numerous algorithms have been proposed for the task of automatic morpheme segmentation of Russian words. Due to the differences in task formulation and datasets utilized, comparing the quality of these algorithms is challenging. It is unclear whether the errors in the models are due to the ineffectiveness of algorithms themselves or to errors and inconsistencies in the morpheme dictionaries. Thus, it remains uncertain whether any algorithm can be used to automatically expand the existing morpheme dictionaries.

Purpose: To compare various existing algorithms of morpheme segmentation for the Russian language and analyze their applicability in the task of automatic augmentation of various existing morpheme dictionaries.

Results: In this study, we compared several state-of-the-art machine learning algorithms using three datasets structured around different segmentation paradigms. Two experiments were carried out, each employing five-fold cross-validation. In the first experiment, we randomly partitioned the dataset into five subsets. In the second, we grouped all words sharing the same root into a single subset, excluding words that contained multiple roots. During cross-validation, models were trained on four of these subsets and evaluated on the remaining one. Across both experiments, the algorithms that relied on ensembles of convolutional neural networks consistently demonstrated the highest performance. However, we observed a notable decline in accuracy when testing on words containing unfamiliar roots. We also found that, on a randomly selected set of words, the performance of these algorithms was comparable to that of human experts.

Conclusion: Our results indicate that although automatic methods have, on average, reached a quality close to expert level, the lack of semantic consideration makes it impossible to use them for automatic dictionary expansion without expert validation. The conducted research revealed that further research should be aimed at addressing the key identified issues: poor performance with unknown roots and acronyms. At the same time, when a small number of unfamiliar roots can be assumed in the test dataset, an ensemble of convolutional neural networks should be utilized. The presented results can be used in the development of morpheme-oriented tokenizers and systems for analyzing the complexity of texts.

Научное направление: Филология и лингвистика Компьютерные науки
Язык: английский
Полный текст
DOI
Текст на другом сайте
Ключевые слова: машинное обучениеnatural language processingавтоматическая обработка естественного языкаconvolutional neural networksmorphological analysisморфемный анализсверточные нейронные сетиморфология русского языка machine learningautomatic morpheme segmentationRussian language morphologydictionary expansionexpert-level performanceавтоматическая морфемное членениерасширение словарякачество экспертного уровня
Похожие публикации
Влияние шизофрении на лексический уровень языка
Унтила К. В., Тасенко О. А., В кн.: Современная лингвистика: ключ к диалогу. Труды и материалы IV Казанского международного лингвистического саммита.Т. 1: СОВРЕМЕННАЯ ЛИНГВИСТИКА: КЛЮЧ К ДИАЛОГУ.: Каз.: Издательство Казанского университета, 2024. С. 221–224.
Шизофрения – это хроническое психическое расстройство, которое выражается как комбинация психотических симптомов – таких как галлюцинации, бред и дезорганизация когнитивных функций. У многих пациентов с диагнозом шизофрения обнаруживаются нарушения речи. Для исследования были отобраны рассказы об истории из жизни из корпуса 3D. В качестве личных историй были собраны ответы на вопросы «Какой самый лучший или запоминающийся ...
Добавлено: 8 июня 2026 г.
Innovations in Information and Decision Sciences. Proceedings of the 13th International Conference on Frontiers in Intelligent Computing: Theory and Applications (FICTA 2025), Volume 4
Springer, 2026.
Добавлено: 8 июня 2026 г.
От «контейнеров для знаний» к «эпистемической амальгамации»: концептуальная метафора в дискурсе междисциплинарности
Нагорная А. В., Бакулев А. В., Человек: образ и сущность. Гуманитарные аспекты 2026 № 2(66) С. 9–36
В статье исследуется роль концептуальной метафоры в осмыслении принципов междисциплинарного взаимодействия и в продвижении междисдиплинарности как модуса научного познания. Определяются функции метафоры в дискурсе междисциплинарности: идеационная, экспланаторная, иллюстративная, прескриптивная и аффективная. На материале статей и монографий по методологии науки, написанных в период с 1961 по 2025 гг., выявляются главенствующие метафоры, с помощью которых осмысляется суть ...
Добавлено: 5 июня 2026 г.
Avant-Garde Poetry and the Tékhnē of Traditional Versification
Казарцев Е. В., Kirichenko N., Arts 2026 Vol. 15 No. 5 Article 97
Добавлено: 4 июня 2026 г.
Rank‑Turbulence Delta and interpretable approaches to stylometric Delta measures
Dmitry Pronin, Evgeny Kazartsev, Digital Scholarship in the Humanities 2026 P. 1–15
Добавлено: 4 июня 2026 г.
Proceedings of the 43rd International Conference on Machine Learning (ICML 2026)
Seul: PMLR, 2026.
Добавлено: 4 июня 2026 г.
Трансфикциональный метаперсонаж Жан-Батист Ботюль
Кириченко В. В., Известия Саратовского университета. Новая серия. Серия: Филология. Журналистика 2026 Т. 26 № 2 С. 200–209
Настоящая работа посвящена фигуре вымышленного философа по имени Жан-Батист Ботюль и его роли в дискурсе современной французской литературы. Для анализа данного героя в работе используются концепции трансфикциональности и метаперсонажа. Сам Ботюль придуман французским журналистом-сатириком Фредериком Пажесом. Его изобретение получило широкую популярность в среде различных деятелей науки и искусства, которые продолжили придумывать исследования и работы, якобы ...
Добавлено: 3 июня 2026 г.
OpenAtom Foundation. Консорциум, развивающий Open Source в Китае.
Силаков Д. В., Системный администратор 2026 № 3 С. 28–33
В статье про платформы для разработки открытого ПО в Китае мы рассказали про GitCode – молодой проект, позиционируемый как площадка для разработчиков со всего мира. Сейчас на GitCode размещаются проекты, созданные в КНР, но некоторые из них уже известны и на международной арене. Помочь открытым проектам в становлении, развитии и расширению аудитории призван фонд OpenAtom ...
Добавлено: 2 июня 2026 г.
Жанровое своеобразие стихотворений во «Властелине колец» Дж.Р.Р. Толкина (на примере плача по Боромиру)
Афанасьев В. А., Новый филологический вестник 2026 № 1(76) С. 274–283
Роман Дж.Р.Р. Толкина «Властелин Колец» отличается обилием стихот-ворных включений в виде поэтических текстов, цитируемых или исполняе-мых (в случае песен) персонажами романа. Этим текстам присуще особенное жанровое разнообразие, согласующееся с литературно-эстетическими пред-почтениями Толкина и отвечающее его стремлению наполнить создаваемую «вторичную реальность» произведениями, которые отражали бы традиции вымышленных народов и служили выразительными повествовательными эле-ментами, дополняющими прозаический рассказ ...
Добавлено: 2 июня 2026 г.
Towards the Ranking of the Importance of Revolutionary Destabilization Factors in Asian and African. Countries Using Machine Learning Methods
Черноморченко И. Ю., Ilya Medvedev, Коротаев А. В., Cross-Cultural Research 2026 P. 1–49
This study investigates which structural factors most strongly predict armed and unarmed revolutionary destabilization across Sub-Saharan Africa (SSA), the Middle East and North Africa (MENA), as well as Asia using country–year data for 1950–2022 and a set of economic, demographic, political, and climatic indicators. It employs an interpretable machine learning framework (CatBoost with SHAP values ...
Добавлено: 1 июня 2026 г.
Между дилетантизмом и диссидентством: переводы рассказов Бориса Виана в «Митином журнале»
Балакирева М. Е., Новое литературное обозрение 2026 № 2 (198) С. 225–237
Статья посвящена исследованию неофициальных переводов с французского языка и акцентирует внимание на конкретном примере — переводе рассказов Бориса Виана в «Митином журнале». Рассмотрение особенностей этих переводов позволяет выявить характерную для самиздата рефлексию о роли языка, а также переосмыслить позицию переводчика, противопоставленного переводчику официальному, просветителю и цензору, создающему иллюзорный образ зарубежной литературы в советском пространстве. Разрабатывая ...
Добавлено: 1 июня 2026 г.
Анализ культурных референций в творчестве А. Вознесенского: цифровое исследование имен персоналий
Тюрякова-Матвеева Д. В., Цифровые гуманитарные исследования 2026 № 1 С. 4–26
Статья исследует культурные референции в творчестве Андрея Вознесенского путем анализа упоминаемых им персоналий. Обработано 1678 произведений, включая поэзию, прозу и ранние неопубликованные стихотворения. Методы NER, основанные на инструментах Natasha, spaCy и LLM Grok, позволили изучить частоту упоминания известных лиц и их связь с жанром произведения. Определены ключевые авторы Вознесенского (Пастернак, Пушкин, Маяковский), выявлены особенности жанра ...
Добавлено: 31 мая 2026 г.
От неизвестности к прозрачности: обзор технологий объяснимого ИИ (XAI)
Авдошин С. М., Песоцкая Е. Ю., Информационные технологии 2026 Т. 32 № 4 С. 185–194
С развитием ИИ, и в особенности глубокого обучения, появились модели, способные давать крайне точные прогнозы. Однако их внутренняя логика остается трудной для понимания — и это серьезная проблема, особенно в сферах, где от корректности алгоритма зависят критиче ски важные решения. Одним из перспективных путей ее решения считается направление Explainable Artificial Intelligence (XAI) — разработка подходов, позволяющих прояснять ...
Добавлено: 8 мая 2026 г.
Explainable AI for Industry 5.0: Shedding light on the black box
Авдошин С. М., Песоцкая Е. Ю., Business Informatics 2026 Vol. 20 No. 1 P. 7–28
Добавлено: 8 мая 2026 г.
Современные методы анализа временных рядов в мониторинге и прогнозировании состояния оборудования для механизированной добычи
Незнанов А. А., Глушко А. А., Овчинников С. и др., В кн.: Интеллектуальный анализ данных в нефтегазовой отрасли.: М.: ООО «Геомодель Развитие», 2024. С. 140–143.
С развитием систем мониторинга мы получили возможность собирать ключевые показатели работы устройств в процессе механизированной добычи. Каждый день генерируется огромное количество телеметрии, которая пройдя процесс гармонизации и трансформации может быть использована для прогнозирования состояния оборудования. В докладе представлен обзор и произведён отбор современных математических методов и программных реализации инструментов анализа многомерных нерегулярных временных рядов для ...
Добавлено: 29 апреля 2026 г.
Machine Learning Approach to Anticancer Activity Prediction of Transition-Metal Complexes Based on a Large-Scale Experimental Database
Krasnov L., Malikov D., Kiseleva M. и др., Journal of Medicinal Chemistry 2026 Vol. 69 No. 8 P. 8838–8851
Добавлено: 23 апреля 2026 г.
LSTM-модель потребления тепловой энергии в многоэтажном жилом здании
Ершов И. А., Системная инженерия и инфокоммуникации 2025 № 4 С. 11–14
Теплопотребление жилых зданий представляет собой стохастический ряд, создание нейросетевой модели для которого необходимо для проектирования регуляторов тепловой энергии. В статье модель разработана с применением "длинной цепи элементов краткосрочной памяти" (LSTM, Long Short-Term Memory). Высокая точность воспроизведения рядов достигнута обучением модели на наборе данных города Томска 2013-2023 г.г. При моделировании учтены характеристики зданий и температура наружного воздуха. ...
Добавлено: 22 апреля 2026 г.
Алгоритм анализа новостной информации для принятия экономических решений
Чудинова О. С., Первицкая Л. А., Раменская А. В., Индустриальная экономика 2026 № 1 С. 65–78
Статья посвящена разработке алгоритма анализа новостной информации методами машинного обучения, реализованными в библиотеках Python. Обоснование выбора инструментов, применяемых на каждом этапе алгоритма, осуществляется с помощью расчета метрик качества решения соответствующих задач машинного обучения. Результаты работы алгоритма представлены классификацией региональных новостей, собранных за период с августа 2024 года по июнь 2025 года, по отраслям экономики и ...
Добавлено: 20 апреля 2026 г.
Modeling cosolvent effects on solubility in supercritical CO2 using data-driven approaches
Makarov D. M., Каликин Н. Н., Gurikov P. и др., Journal of Supercritical Fluids 2026 Vol. 235 Article 106979
Добавлено: 19 апреля 2026 г.
Эффективность применения прогнозов волатильности в активных торговых стратегиях институциональных инвесторов на российском рынке акций
Лысенок Н. И., Фундаментальная и прикладная математика 2026 Т. 26 № 3 С. 33–42
Исследование посвящено оценке влияния прогнозов реализованной волатильности на результаты активных торговых стратегий на российском рынке акций. На выборке 17 ликвидных акций за 2014-2026 гг. построена гибридная прогнозная модель, объединяющая HAR-J и градиентный бустинг; её преимущество над базовой HAR-J подтверждено тестом Дибольда-Мариано (p < 0,001). Шесть направленных стратегий трёх категорий протестированы с тремя механизмами интеграции прогнозов и без них. ...
Добавлено: 17 апреля 2026 г.
Особые экономические зоны Российской Федерации: моделирование решений потенциальных резидентов и процесса их генерации
Плесовских А. Е., Journal of Applied Economic Research 2023 Т. 22 № 2 С. 323–354
В современных исследованиях широко обсуждается роль особых экономических зон в стимулировании экономического роста и развития России, формировании необходимых инвестиционных потоков и повышении инновационного потенциала страны за счет расширения производства продукции в высокотехнологичных отраслях экономики с высокой добавленной стоимостью. Цель исследования – моделирование процесса генерации резидентов и детерминация количественных факторов, оказывающих статистически значимый эффект на среднегодовой ...
Добавлено: 13 апреля 2026 г.
Опыт генерации оценок эмоциональной валентности и возбуждения слов на основе символьно-уровневой CNN
Люсин Д. В., Валуева Е. А., Сысоева Т. А., В кн.: Психология познания: Материалы Всероссийской научной конференции, ЯрГУ, Институт психологии РАН, 5–6 декабря 2025 г.: Институт психологии РАН, 2026. С. 310–314.
Эмоциональная окраска слов широко используются в  различных академических и прикладных исследованиях, от анализа текстов до понимания когнитивных процессов. Актуальной задачей является создание объёмных датасетов с оценками слов по ряду эмоциональных параметров. Современные методы машинного обучения, основанные на семантической близости слов, извлекаемой из текстовых корпусов, демонстрируют высокие корреляции с человеческими оценками, однако иногда наблюдаются существенные расхождения. ...
Добавлено: 10 апреля 2026 г.
Нейросетевые инструменты в арсенале вузовского преподавателя
Федоров А. О., Вакку Г. В., Лебедева С. Э., Галактика медиа: журнал медиа исследований 2026 Т. 8 № 2 С. 163–182
С увеличением объемов данных преподаватель вуза может потратить годы на обработку и  систематизацию информации. Персонализированная помощь, рекомендации по контенту, сбор данных для обзоров литературы и оформление библиографических ссылок укрепляют роль искусственного интеллекта как эффективного нейросетевого инструмента научной коммуникации. В данной статье рассматриваются практические примеры использования таких инструментов, как Elicit, SciSpace, Consensus, Undermind и Paperfinder, для упрощения ...
Добавлено: 7 апреля 2026 г.
Efficiency of Machine Learning Tasks on HPC Devices
Ефремов А. М., Тимофеев А. В., Ilyasov Y. и др., , in: ПАРАЛЛЕЛЬНЫЕ ВЫЧИСЛИТЕЛЬНЫЕ ТЕХНОЛОГИИ (ПаВТ’2025).: Издательский центр Южно-Уральского государственного университета, 2025. P. 56–81.
Добавлено: 4 апреля 2026 г.
  • О ВЫШКЕ
  • Цифры и факты
  • Руководство и структура
  • Устойчивое развитие в НИУ ВШЭ
  • Преподаватели и сотрудники
  • Корпуса и общежития
  • Закупки
  • Обращения граждан в НИУ ВШЭ
  • Фонд целевого капитала
  • Противодействие коррупции
  • Сведения о доходах, расходах, об имуществе и обязательствах имущественного характера
  • Сведения об образовательной организации
  • Людям с ограниченными возможностями здоровья
  • Единая платежная страница
  • Работа в Вышке
  • ОБРАЗОВАНИЕ
  • Лицей
  • Довузовская подготовка
  • Олимпиады
  • Прием в бакалавриат
  • Вышка+
  • Прием в магистратуру
  • Аспирантура
  • Дополнительное образование
  • Центр развития карьеры
  • Бизнес-инкубатор ВШЭ
  • Образовательные партнерства
  • Обратная связь и взаимодействие с получателями услуг
  • НАУКА
  • Научные подразделения
  • Исследовательские проекты
  • Мониторинги
  • Диссертационные советы
  • Защиты диссертаций
  • Академическое развитие
  • Конкурсы и гранты
  • Внешние научно-информационные ресурсы
  • РЕСУРСЫ
  • Библиотека
  • Издательский дом ВШЭ
  • Книжный магазин «БукВышка»
  • Типография
  • Медиацентр
  • Журналы ВШЭ
  • Публикации
  • http://www.minobrnauki.gov.ru/
    Министерство науки и высшего образования РФ
  • https://edu.gov.ru/
    Министерство просвещения РФ
  • http://www.edu.ru
    Федеральный портал «Российское образование»
  • https://elearning.hse.ru/mooc
    Массовые открытые онлайн-курсы
  • НИУ ВШЭ1993–2026
  • Адреса и контакты
  • Условия использования материалов
  • Политика конфиденциальности
  • Правила применения рекомендательных технологий в НИУ ВШЭ
  • Карта сайта
Редактору