BERT-like Models for Slavic Morpheme Segmentation

Morozov D.; Astapenka L.; Glazkova A.; Garipov T.; O. Lyashevskaya

doi:10.18653/v1/2025.acl-long.337

Публикации

?

BERT-like Models for Slavic Morpheme Segmentation

P. 6795–6815.

Morozov D., Astapenka L., Glazkova A., Garipov T., Ляшевская О. Н.

Алгоритмы автоматической сегментации морфем применимы в различных задачах, таких как построение токенизаторов и обучение языку. Для славянских языков разработка таких алгоритмов осложняется богатыми деривационными возможностями этих языков. Предыдущие исследования показали, что в среднем эти алгоритмы уже достигли экспертного уровня качества. Однако ключевой нерешенной проблемой является значительное снижение производительности при сегментации слов, содержащих корни, отсутствующие в обучающих данных. Эту проблему можно частично решить, используя предварительно обученные языковые модели для лучшего учета семантики слов. В данной работе мы исследовали возможность тонкой настройки моделей типа BERT для сегментации морфем, используя данные белорусского, чешского и русского языков. Мы обнаружили, что для чешского и русского языков наши модели превосходят все ранее предложенные подходы, достигая точности на уровне слов 92,5-95,1%. Для белорусского языка эта задача была решена впервые.

Язык: английский

Полный текст

DOI

Ключевые слова: морфологический анализ словообразование word formation славянские языки Slavic languages morphological analysis morpheme segmentation for Russian automatic morpheme segmentation word segmentation morpheme segmentation for Belarusian morpheme segmentation for Czech морфемная сегментация морфемная сегментация русского языка морфемная сегментация белорусского языка морфемная сегментация чешского языка

В книге

Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)

Vol. 1: Long papers. , Association for Computational Linguistics, 2025.

Proceedings of the 10th Workshop on Slavic Natural Language Processing (Slavic NLP 2025)

Association for Computational Linguistics, 2025.

Добавлено: 10 марта 2026 г.

Особенности функционирования существительных с опустошенной семантикой в русской разговорной речи

Никишина Е. А., Труды института русского языка им. В.В. Виноградова 2025 № 3(45) С. 231–244

Статья посвящена исследованию существительных с опустошенной семантикой (штука, фигня, хреновина и др.) в русской разговорной речи. Эти слова могут, подобно местоимениям, выступать в качестве заместителей других слов, но набор их функций значительно разнообразнее, чем у местоимений. Анализируются две группы слов с размытой семантикой: исходно нейтральные (штука, вещь, дело) и исходно оценочные, точнее, имеющие пейоративную семантику ...

Добавлено: 8 марта 2026 г.

Анализ словообразовательных механизмов формирования сленговых выражений молодежной среды в китайском языке

Павлова О. В., Раджабова Л. К., Филологические науки. Вопросы теории и практики 2022 Т. 15 № 2 С. 559–563

Цель исследования - выявить специфику в словообразовательных механизмах формирования сленговых выражений молодежной среды в китайском языке. В статье проводится анализ дефиниций понятия «сленг» в китайской лингвистике. Научная новизна исследования заключается в рассмотрении и анализе новых сленговых выражений, пришедших из популярной видеоплатформы TikTok, в том числе и выявлении тенденций развития интернет-сленга современного китайского языка. Результаты научного ...

Добавлено: 23 февраля 2026 г.

ПЕРЕВОД ТЕРМИНОВ АЭРОКОСМИЧЕСКОЙ ОТРАСЛИ С ПОМОЩЬЮ КОМПОНЕНТНОГО АНАЛИЗА (НА МАТЕРИАЛЕ КИТАЙСКОГО ЯЗЫКА)

Павлова О. В., Известия Волгоградского государственного педагогического университета 2022 № 4(167) С. 197–202

Рассматривается проблема перевода китайских терминов аэрокосмической отрасли на русский язык с помощью компонентного анализа, приводятся модели словообразования терминологических сочетаний. Выявлено, что продуктивными способами образования терминов аэрокосмической отрасли являются морфемная контракция, словосложение и аффиксация. Точного перевода терминов можно достичь с помощью компонентного анализа, который облегчает процесс перевода и экономит время в условиях недостаточной словарно-справочной обеспеченности процесса ...

Добавлено: 23 февраля 2026 г.

Youth slang as a social language code: funktion and formation

Трофимова Н. А., Pesina S., Vinogradova S. и др., Brazilian Journal of Education, Technology and Society - BRAJETS 2025

Добавлено: 22 февраля 2026 г.

Полисемия агентивных суффиксов в славянских языках: когнитивно-семантический анализ

Андреева А. А., Jezikoslovni Zapiski 2025 Т. 31 № 1 С. 133–163

В статье анализируется полисемия суффиксов существительных, обозначающих деятеля, в шести славянских языках (русском, украинском, польском, чешском, сербском и словенском) с использованием «метонимического» подхода к словообразованию, разработанного Л. Яндой (2011). Рассматриваются семантические особенности глаголов, к которым могут присоединяться суффиксы, обозначающие деятеля, и описываются семантические типы, представленные производными существительными. В работе показано, что суффиксы имени деятеля служат ...

Добавлено: 16 февраля 2026 г.

Автоматическое выявление побуждений в тексте: применение методов компьютерной лингвистики в работе эксперта-лингвиста

П.Е. Белова, А.К. Сафарян, В кн.: Научно-практическая конференция с международным участием "Национальные и международные тенденции и перспективы развития судебной экспертизы". Сборник докладов.: Н. Новгород: Изд-во ННГУ им. Н.И. Лобачевского, 2024.

В данной статье представлено описание системы автоматического поиска и извлечения побуждений из текстов на русском языке FindImper, основанной на поиске глагольных форм и синтаксических связей. Алгоритм реализован на языке программирования Python с использованием библиотек для морфологического и синтаксического анализа и набора правил. Данный инструмент направлен на оптимизацию работы эксперта-лингвиста и доступен к использованию через веб-сайт ...

Добавлено: 30 января 2026 г.

Apposition (Appositional Constructions)

Natalia N. Logvinova, , in: Encyclopedia of Slavic Languages and Linguistics Online.: Brill, 2025. Ch. 11.

В славянских языках различается два типа аппозитивных конструкций — связанные и свободные. В главе обсуждаются вопросы падежного соглаосвания и синтаксической вершинности в связанных аппозитивных конструкциях. С связи со свободными аппозициями, обсуждается их функциональное разнообразие и отличие от связанных аппозитивных конструкций. ...

Добавлено: 22 декабря 2025 г.

Nominative Object

Ронько Р. В., Wiemer B., , in: Encyclopedia of Slavic Languages and Linguistics Online.: Brill, 2020.

Добавлено: 19 декабря 2025 г.

Диалектометрический подход к диалектной классификации восточнославянских языков на материале сборника «Восточнославянские изоглоссы»

Манусов А. В., Кузьмина А. С., Вопросы языкового родства 2024 № 22/3-4 С. 342–366

В тексте работы предложен новый диалектометрический подход к членению восточнославянских языков. Наша диалектометрия основана на материале сборника статей «Восточнославянские изоглоссы» (ВСИ-1 1995; ВСИ-2 1998; ВСИ-3 2000; ВСИ-4 2006), который представляет собой обобщение данных атласов восточнославянских языков (АУМ, ДАБМ, ДАРЯ). Карты ВСИ были перенесены нами в электронный формат, при этом каждый признак, представленный на изначальной карте, ...

Добавлено: 13 ноября 2025 г.

Палеославистика 6. Славянское и балканское языкознание. Выпуск 25

Савич В., Паскаль А. Д., Вершинин К. В. и др., Полимедиа, 2025.

Том «Палеославистика – 6» серии «Славянское и балканское языкознание» представляет собой монографию международного коллектива авторов. Разделы коллективной монографии посвящены обсуждению новейших результатов текущих исследований славянских рукописей X–XIV вв. – их языка, текстологии и палеографии. ...

Добавлено: 12 ноября 2025 г.

Automatic Morpheme Segmentation for Russian: Can an Algorithm Replace Experts?

Morozov D., Garipov T., Ляшевская О. Н. и др., Journal of Language and Education 2024 Vol. 10 No. 4 P. 71–84

Introduction: Numerous algorithms have been proposed for the task of automatic morpheme segmentation of Russian words. Due to the differences in task formulation and datasets utilized, comparing the quality of these algorithms is challenging. It is unclear whether the errors in the models are due to the ineffectiveness of algorithms themselves or to errors and inconsistencies ...

Добавлено: 7 января 2025 г.

Проприетивные и привативные аффиксы в некоторых уральских языках: о маркированности и (не)словоизменительном статусе

Лапшина К. М., Вопросы языкознания 2025 № 1 С. 95–118

В работе на данных корпусов и грамматических описаний исследуются морфосинтаксические свойства проприетивных и привативных показателей, выраженных связанными морфемами, в некоторых уральских языках. Такие показатели присоединяются преимущественно к субстантивным основам и образуют производные со значением ‘обладающий Х-ом’ и ‘лишённый Х-а’ соответственно. Первая часть исследования посвящена сопоставлению морфосинтаксических свойств проприетивных и привативных аффиксов как в выборке в целом, ...

Добавлено: 19 декабря 2024 г.

Обзор семейства конструкций с функцией «понижения агенса» в славянских языках

Плунгян В. А., Подгорная А. Д., Славистика 2023 Т. 27 № 2 С. 54–70

В данной работе представлен обзор конструкций, выполняющих функцию «понижения агенса», в славянских языках, что включает причастный пассив, субъектный имперсонал с кратким пассивным причастием (на -no/to), форма с континуантом праславянского *sę, в разных языках демонстрирующая свойства пассива или имперсонала, конструкции с глаголом в форме 3-го лица мн.ч. и ед.ч. (ср.р.), универсальные употребления 2-го лица ед.ч., 1-го ...

Добавлено: 6 июня 2024 г.