• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • A
  • A
  • A
  • A
  • A
Обычная версия сайта
  • RU
  • EN
  • Национальный исследовательский университет «Высшая школа экономики»
  • Публикации ВШЭ
  • Глава
  • BERT-like Models for Slavic Morpheme Segmentation
  • RU
  • EN
Расширенный поиск
Высшая школа экономики
Национальный исследовательский университет
Приоритетные направления
  • бизнес-информатика
  • государственное и муниципальное управление
  • гуманитарные науки
  • инженерные науки
  • компьютерно-математическое
  • математика
  • менеджмент
  • право
  • социология
  • экономика
по году
  • 2027
  • 2026
  • 2025
  • 2024
  • 2023
  • 2022
  • 2021
  • 2020
  • 2019
  • 2018
  • 2017
  • 2016
  • 2015
  • 2014
  • 2013
  • 2012
  • 2011
  • 2010
  • 2009
  • 2008
  • 2007
  • 2006
  • 2005
  • 2004
  • 2003
  • 2002
  • 2001
  • 2000
  • 1999
  • 1998
  • 1997
  • 1996
  • 1995
  • 1994
  • 1993
  • 1992
  • 1991
  • 1990
  • 1989
  • 1988
  • 1987
  • 1986
  • 1985
  • 1984
  • 1983
  • 1982
  • 1981
  • 1980
  • 1979
  • 1978
  • 1977
  • 1976
  • 1975
  • 1974
  • 1973
  • 1972
  • 1971
  • 1970
  • 1969
  • 1968
  • 1967
  • 1966
  • 1965
  • 1964
  • 1963
  • 1958
  • еще
Тематика
Новости
13 мая 2026 г.
Исследователи Вышки - о бездомности, психологии смысла, курении и правах пациентов
В конце апреля в культурном центре Community состоялся третий полуфинал девятого сезона «Научных боев». Четыре исследователя пробирались через импровизированные джунгли социальных проблем, медицинских прав и психологических лабиринтов. У каждого было 10 минут, никаких презентаций — только реквизит, харизма и истории, от которых захватывало дух.
12 мая 2026 г.
Женщины избегают новостей не из-за «второй смены»
Женщины чаще мужчин избегают политических и экономических новостей, однако причины этого поведения связаны не столько со структурным неравенством или семейной нагрузкой, сколько с личными установками и эмоциональным восприятием новостного контента. К такому выводу пришли ученые НИУ ВШЭ, проанализировав данные масштабного опроса более 10 тысяч жителей 61 региона России. Результаты исследования опубликованы в журнале «Женщина в российском обществе».
8 мая 2026 г.
«Все время посвящается работе над диссертацией»
Илья Венедиктов окончил магистратуру Московского института электроники и математики ВШЭ по единому треку «магистратура — аспирантура» и обучается в аспирантской школе ВШЭ по техническим наукам. В настоящее время он проходит длительную стажировку в Китайском университете науки и технологий в городе Хэфэй, занимаясь подготовкой диссертации. Чем стажировка отличается от программы мобильности, какова научная тема Ильи и как проходят будни российского аспиранта в Китае, он рассказал в интервью.

 

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!

Публикации
  • Книги
  • Статьи
  • Главы в книгах
  • Препринты
  • Верификация публикаций
  • Расширенный поиск
  • Правила использования материалов
  • Наука в ВШЭ

?

BERT-like Models for Slavic Morpheme Segmentation

P. 6795–6815.
Morozov D., Astapenka L., Glazkova A., Garipov T., Ляшевская О. Н.

Алгоритмы автоматической сегментации морфем применимы в различных задачах, таких как построение токенизаторов и обучение языку. Для славянских языков разработка таких алгоритмов осложняется богатыми деривационными возможностями этих языков. Предыдущие исследования показали, что в среднем эти алгоритмы уже достигли экспертного уровня качества. Однако ключевой нерешенной проблемой является значительное снижение производительности при сегментации слов, содержащих корни, отсутствующие в обучающих данных. Эту проблему можно частично решить, используя предварительно обученные языковые модели для лучшего учета семантики слов. В данной работе мы исследовали возможность тонкой настройки моделей типа BERT для сегментации морфем, используя данные белорусского, чешского и русского языков. Мы обнаружили, что для чешского и русского языков наши модели превосходят все ранее предложенные подходы, достигая точности на уровне слов 92,5-95,1%. Для белорусского языка эта задача была решена впервые.

Язык: английский
Полный текст
DOI
Ключевые слова: морфологический анализсловообразованиеword formationславянские языкиSlavic languagesmorphological analysismorpheme segmentation for Russianautomatic morpheme segmentationword segmentationmorpheme segmentation for Belarusianmorpheme segmentation for Czechморфемная сегментацияморфемная сегментация русского языкаморфемная сегментация белорусского языкаморфемная сегментация чешского языка

В книге

Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)
Vol. 1: Long papers. , Association for Computational Linguistics, 2025.
Похожие публикации
Proceedings of the 10th Workshop on Slavic Natural Language Processing (Slavic NLP 2025)
Association for Computational Linguistics, 2025.
Добавлено: 10 марта 2026 г.
Особенности функционирования существительных с опустошенной семантикой в русской разговорной речи
Никишина Е. А., Труды института русского языка им. В.В. Виноградова 2025 № 3(45) С. 231–244
Статья посвящена исследованию существительных с опустошенной семантикой (штука, фигня, хреновина и др.) в русской разговорной речи. Эти слова могут, подобно местоимениям, выступать в качестве заместителей других слов, но набор их функций значительно разнообразнее, чем у местоимений. Анализируются две группы слов с размытой семантикой: исходно нейтральные (штука, вещь, дело) и исходно оценочные, точнее, имеющие пейоративную семантику ...
Добавлено: 8 марта 2026 г.
Анализ словообразовательных механизмов формирования сленговых выражений молодежной среды в китайском языке
Павлова О. В., Раджабова Л. К., Филологические науки. Вопросы теории и практики 2022 Т. 15 № 2 С. 559–563
Цель исследования - выявить специфику в словообразовательных механизмах формирования сленговых выражений молодежной среды в китайском языке. В статье проводится анализ дефиниций понятия «сленг» в китайской лингвистике. Научная новизна исследования заключается в рассмотрении и анализе новых сленговых выражений, пришедших из популярной видеоплатформы TikTok, в том числе и выявлении тенденций развития интернет-сленга современного китайского языка. Результаты научного ...
Добавлено: 23 февраля 2026 г.
ПЕРЕВОД ТЕРМИНОВ АЭРОКОСМИЧЕСКОЙ ОТРАСЛИ С ПОМОЩЬЮ КОМПОНЕНТНОГО АНАЛИЗА (НА МАТЕРИАЛЕ КИТАЙСКОГО ЯЗЫКА)
Павлова О. В., Известия Волгоградского государственного педагогического университета 2022 № 4(167) С. 197–202
Рассматривается проблема перевода китайских терминов аэрокосмической отрасли на русский язык с помощью компонентного анализа, приводятся модели словообразования терминологических сочетаний. Выявлено, что продуктивными способами образования терминов аэрокосмической отрасли являются морфемная контракция, словосложение и аффиксация. Точного перевода терминов можно достичь с помощью компонентного анализа, который облегчает процесс перевода и экономит время в условиях недостаточной словарно-справочной обеспеченности процесса ...
Добавлено: 23 февраля 2026 г.
Youth slang as a social language code: funktion and formation
Трофимова Н. А., Pesina S., Vinogradova S. и др., Brazilian Journal of Education, Technology and Society - BRAJETS 2025
Добавлено: 22 февраля 2026 г.
Полисемия агентивных суффиксов в славянских языках: когнитивно-семантический анализ
Андреева А. А., Jezikoslovni Zapiski 2025 Т. 31 № 1 С. 133–163
В статье анализируется полисемия суффиксов существительных, обозначающих деятеля, в шести славянских языках (русском, украинском, польском, чешском, сербском и словенском) с использованием «метонимического» подхода к словообразованию, разработанного Л. Яндой (2011). Рассматриваются семантические особенности глаголов, к которым могут присоединяться суффиксы, обозначающие деятеля, и описываются семантические типы, представленные производными существительными. В работе показано, что суффиксы имени деятеля служат ...
Добавлено: 16 февраля 2026 г.
Автоматическое выявление побуждений в тексте: применение методов компьютерной лингвистики в работе эксперта-лингвиста
П.Е. Белова, А.К. Сафарян, В кн.: Научно-практическая конференция с международным участием "Национальные и международные тенденции и перспективы развития судебной экспертизы". Сборник докладов.: Н. Новгород: Изд-во ННГУ им. Н.И. Лобачевского, 2024.
В данной статье представлено описание системы автоматического поиска и извлечения побуждений из текстов на русском языке FindImper, основанной на поиске глагольных форм и синтаксических связей. Алгоритм реализован на языке программирования Python с использованием библиотек для морфологического и синтаксического анализа и набора правил. Данный инструмент направлен на оптимизацию работы эксперта-лингвиста и доступен к использованию через веб-сайт ...
Добавлено: 30 января 2026 г.
Apposition (Appositional Constructions)
Natalia N. Logvinova, , in: Encyclopedia of Slavic Languages and Linguistics Online.: Brill, 2025. Ch. 11.
В славянских языках различается два типа аппозитивных конструкций — связанные и свободные. В главе обсуждаются вопросы падежного соглаосвания и синтаксической вершинности в связанных аппозитивных конструкциях. С связи со свободными аппозициями, обсуждается их функциональное разнообразие и отличие от связанных аппозитивных конструкций. ...
Добавлено: 22 декабря 2025 г.
Nominative Object
Ронько Р. В., Wiemer B., , in: Encyclopedia of Slavic Languages and Linguistics Online.: Brill, 2020.
Добавлено: 19 декабря 2025 г.
Диалектометрический подход к диалектной классификации восточнославянских языков на материале сборника «Восточнославянские изоглоссы»
Манусов А. В., Кузьмина А. С., Вопросы языкового родства 2024 № 22/3-4 С. 342–366
В тексте работы предложен новый диалектометрический подход к членению восточнославянских языков. Наша диалектометрия основана на материале сборника статей «Восточнославянские изоглоссы» (ВСИ-1 1995; ВСИ-2 1998; ВСИ-3 2000; ВСИ-4 2006), который представляет собой обобщение данных атласов восточнославянских языков (АУМ, ДАБМ, ДАРЯ). Карты ВСИ были перенесены нами в электронный формат, при этом каждый признак, представленный на изначальной карте, ...
Добавлено: 13 ноября 2025 г.
Палеославистика 6. Славянское и балканское языкознание. Выпуск 25
Савич В., Паскаль А. Д., Вершинин К. В. и др., Полимедиа, 2025.
Том «Палеославистика – 6» серии «Славянское и балканское языкознание» представляет собой монографию международного коллектива авторов. Разделы коллективной монографии посвящены обсуждению новейших результатов текущих исследований славянских рукописей X–XIV вв. – их языка, текстологии и палеографии. ...
Добавлено: 12 ноября 2025 г.
Automatic Morpheme Segmentation for Russian: Can an Algorithm Replace Experts?
Morozov D., Garipov T., Ляшевская О. Н. и др., Journal of Language and Education 2024 Vol. 10 No. 4 P. 71–84
Introduction: Numerous algorithms have been proposed for the task of automatic morpheme segmentation of Russian words. Due to the differences in task formulation and datasets utilized, comparing the quality of these algorithms is challenging. It is unclear whether the errors in the models are due to the ineffectiveness of algorithms themselves or to errors and inconsistencies ...
Добавлено: 7 января 2025 г.
Проприетивные и привативные аффиксы в некоторых уральских языках: о маркированности и (не)словоизменительном статусе
Лапшина К. М., Вопросы языкознания 2025 № 1 С. 95–118
В работе на данных корпусов и грамматических описаний исследуются морфосинтаксические свойства проприетивных и привативных показателей, выраженных связанными морфемами, в некоторых уральских языках. Такие показатели присоединяются преимущественно к субстантивным основам и образуют производные со значением ‘обладающий Х-ом’ и ‘лишённый Х-а’ соответственно. Первая часть исследования посвящена сопоставлению морфосинтаксических свойств проприетивных и привативных аффиксов как в выборке в целом, ...
Добавлено: 19 декабря 2024 г.
Обзор семейства конструкций с функцией «понижения агенса» в славянских языках
Плунгян В. А., Подгорная А. Д., Славистика 2023 Т. 27 № 2 С. 54–70
В данной работе представлен обзор конструкций, выполняющих функцию «понижения агенса», в славянских языках, что включает причастный пассив, субъектный имперсонал с кратким пассивным причастием (на -no/to), форма с континуантом праславянского *sę, в разных языках демонстрирующая свойства пассива или имперсонала, конструкции с глаголом в форме 3-го лица мн.ч. и ед.ч. (ср.р.), универсальные употребления 2-го лица ед.ч., 1-го ...
Добавлено: 6 июня 2024 г.
  • О ВЫШКЕ
  • Цифры и факты
  • Руководство и структура
  • Устойчивое развитие в НИУ ВШЭ
  • Преподаватели и сотрудники
  • Корпуса и общежития
  • Закупки
  • Обращения граждан в НИУ ВШЭ
  • Фонд целевого капитала
  • Противодействие коррупции
  • Сведения о доходах, расходах, об имуществе и обязательствах имущественного характера
  • Сведения об образовательной организации
  • Людям с ограниченными возможностями здоровья
  • Единая платежная страница
  • Работа в Вышке
  • ОБРАЗОВАНИЕ
  • Лицей
  • Довузовская подготовка
  • Олимпиады
  • Прием в бакалавриат
  • Вышка+
  • Прием в магистратуру
  • Аспирантура
  • Дополнительное образование
  • Центр развития карьеры
  • Бизнес-инкубатор ВШЭ
  • Образовательные партнерства
  • Обратная связь и взаимодействие с получателями услуг
  • НАУКА
  • Научные подразделения
  • Исследовательские проекты
  • Мониторинги
  • Диссертационные советы
  • Защиты диссертаций
  • Академическое развитие
  • Конкурсы и гранты
  • Внешние научно-информационные ресурсы
  • РЕСУРСЫ
  • Библиотека
  • Издательский дом ВШЭ
  • Книжный магазин «БукВышка»
  • Типография
  • Медиацентр
  • Журналы ВШЭ
  • Публикации
  • http://www.minobrnauki.gov.ru/
    Министерство науки и высшего образования РФ
  • https://edu.gov.ru/
    Министерство просвещения РФ
  • http://www.edu.ru
    Федеральный портал «Российское образование»
  • https://elearning.hse.ru/mooc
    Массовые открытые онлайн-курсы
  • НИУ ВШЭ1993–2026
  • Адреса и контакты
  • Условия использования материалов
  • Политика конфиденциальности
  • Правила применения рекомендательных технологий в НИУ ВШЭ
  • Карта сайта
Редактору