• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • A
  • A
  • A
  • A
  • A
Обычная версия сайта
  • RU
  • EN
  • Национальный исследовательский университет «Высшая школа экономики»
  • Публикации ВШЭ
  • Глава
  • BERT-like Models for Slavic Morpheme Segmentation
  • RU
  • EN
Расширенный поиск
Высшая школа экономики
Национальный исследовательский университет
Приоритетные направления
  • бизнес-информатика
  • государственное и муниципальное управление
  • гуманитарные науки
  • инженерные науки
  • компьютерно-математическое
  • математика
  • менеджмент
  • право
  • социология
  • экономика
по году
  • 2027
  • 2026
  • 2025
  • 2024
  • 2023
  • 2022
  • 2021
  • 2020
  • 2019
  • 2018
  • 2017
  • 2016
  • 2015
  • 2014
  • 2013
  • 2012
  • 2011
  • 2010
  • 2009
  • 2008
  • 2007
  • 2006
  • 2005
  • 2004
  • 2003
  • 2002
  • 2001
  • 2000
  • 1999
  • 1998
  • 1997
  • 1996
  • 1995
  • 1994
  • 1993
  • 1992
  • 1991
  • 1990
  • 1989
  • 1988
  • 1987
  • 1986
  • 1985
  • 1984
  • 1983
  • 1982
  • 1981
  • 1980
  • 1979
  • 1978
  • 1977
  • 1976
  • 1975
  • 1974
  • 1973
  • 1972
  • 1971
  • 1970
  • 1969
  • 1968
  • 1967
  • 1966
  • 1965
  • 1964
  • 1963
  • 1958
  • еще
Тематика
Новости
20 мая 2026 г.
Творческая работа как лекарство от выгорания
Творческая и доброжелательная атмосфера, новые методы в Международной лаборатории (впоследствии центре) социокультурных исследований привлекают молодых исследователей. За годы работы в Вышке они становятся учеными и преподавателями, известными в России и за рубежом. О своем пути в центре и в Вышке, исследованиях и роли наставников в научных успехах рассказали главный научный сотрудник ЦСКИ Зарина Лепшокова и ведущий научный сотрудник Екатерина Бушина.
19 мая 2026 г.
Физики НИУ ВШЭ выяснили, что происходит внутри устойчивого вихря
В атмосфере и в океане часто наблюдаются крупные вихри с характерными спиральными рукавами. Физики из НИУ ВШЭ объяснили, как они формируются и почему сохраняют свою структуру. Оказалось, что скорости в точках, расположенных вдоль одной дуги вихря, остаются связанными даже на больших расстояниях. При этом в направлении от центра вихря эта связь быстро ослабевает. Такие различия помогают объяснить образование рукавов и могут улучшить модели атмосферных и океанических течений. Результаты опубликованы в Physical Review Fluids.
18 мая 2026 г.
В Вышке прошла XXX юбилейная научно-техническая конференция имени Е.В. Арменского
Организатором научного события выступает Московский институт электроники и математики им. А.Н. Тихонова ВШЭ. В этом году главный инженерный студенческий форум проходил 30-й раз и собрал рекордное число участников. Студенты, аспиранты и молодые специалисты из 50 вузов и организаций России представили научно-исследовательские доклады в ИТ-области. Отдельная секция была посвящена научно-исследовательским работам школьников.

 

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!

Публикации
  • Книги
  • Статьи
  • Главы в книгах
  • Препринты
  • Верификация публикаций
  • Расширенный поиск
  • Правила использования материалов
  • Наука в ВШЭ

?

BERT-like Models for Slavic Morpheme Segmentation

P. 6795–6815.
Morozov D., Astapenka L., Glazkova A., Garipov T., Ляшевская О. Н.

Алгоритмы автоматической сегментации морфем применимы в различных задачах, таких как построение токенизаторов и обучение языку. Для славянских языков разработка таких алгоритмов осложняется богатыми деривационными возможностями этих языков. Предыдущие исследования показали, что в среднем эти алгоритмы уже достигли экспертного уровня качества. Однако ключевой нерешенной проблемой является значительное снижение производительности при сегментации слов, содержащих корни, отсутствующие в обучающих данных. Эту проблему можно частично решить, используя предварительно обученные языковые модели для лучшего учета семантики слов. В данной работе мы исследовали возможность тонкой настройки моделей типа BERT для сегментации морфем, используя данные белорусского, чешского и русского языков. Мы обнаружили, что для чешского и русского языков наши модели превосходят все ранее предложенные подходы, достигая точности на уровне слов 92,5-95,1%. Для белорусского языка эта задача была решена впервые.

Язык: английский
Полный текст
DOI
Ключевые слова: морфологический анализсловообразованиеword formationславянские языкиSlavic languagesmorphological analysismorpheme segmentation for Russianautomatic morpheme segmentationword segmentationmorpheme segmentation for Belarusianmorpheme segmentation for Czechморфемная сегментацияморфемная сегментация русского языкаморфемная сегментация белорусского языкаморфемная сегментация чешского языка

В книге

Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)
Vol. 1: Long papers. , Association for Computational Linguistics, 2025.
Похожие публикации
Глаголы перемещения веществ в славянских языках
Федоров Д. Г., Jezikoslovni Zapiski 2026 № 32(1) С. 23–52
В статье описываются глаголы перемещения жидких и сухих веществ в славянских языках. В ходе работы рассматривается, как славянские языки лексикализуют различные ситуации в рамках семантического поля перемещения веществ, и выделяются параметры которые определяют эту лексикализацию (напр., тип вещества, интенсивность и квантованность потока, каузация). Смежные грамматические явления, такие как мена диатезы и лабильность, также играют роль ...
Добавлено: 13 мая 2026 г.
Proceedings of the 10th Workshop on Slavic Natural Language Processing (Slavic NLP 2025)
Association for Computational Linguistics, 2025.
Добавлено: 10 марта 2026 г.
Особенности функционирования существительных с опустошенной семантикой в русской разговорной речи
Никишина Е. А., Труды института русского языка им. В.В. Виноградова 2025 № 3(45) С. 231–244
Статья посвящена исследованию существительных с опустошенной семантикой (штука, фигня, хреновина и др.) в русской разговорной речи. Эти слова могут, подобно местоимениям, выступать в качестве заместителей других слов, но набор их функций значительно разнообразнее, чем у местоимений. Анализируются две группы слов с размытой семантикой: исходно нейтральные (штука, вещь, дело) и исходно оценочные, точнее, имеющие пейоративную семантику ...
Добавлено: 8 марта 2026 г.
Анализ словообразовательных механизмов формирования сленговых выражений молодежной среды в китайском языке
Павлова О. В., Раджабова Л. К., Филологические науки. Вопросы теории и практики 2022 Т. 15 № 2 С. 559–563
Цель исследования - выявить специфику в словообразовательных механизмах формирования сленговых выражений молодежной среды в китайском языке. В статье проводится анализ дефиниций понятия «сленг» в китайской лингвистике. Научная новизна исследования заключается в рассмотрении и анализе новых сленговых выражений, пришедших из популярной видеоплатформы TikTok, в том числе и выявлении тенденций развития интернет-сленга современного китайского языка. Результаты научного ...
Добавлено: 23 февраля 2026 г.
ПЕРЕВОД ТЕРМИНОВ АЭРОКОСМИЧЕСКОЙ ОТРАСЛИ С ПОМОЩЬЮ КОМПОНЕНТНОГО АНАЛИЗА (НА МАТЕРИАЛЕ КИТАЙСКОГО ЯЗЫКА)
Павлова О. В., Известия Волгоградского государственного педагогического университета 2022 № 4(167) С. 197–202
Рассматривается проблема перевода китайских терминов аэрокосмической отрасли на русский язык с помощью компонентного анализа, приводятся модели словообразования терминологических сочетаний. Выявлено, что продуктивными способами образования терминов аэрокосмической отрасли являются морфемная контракция, словосложение и аффиксация. Точного перевода терминов можно достичь с помощью компонентного анализа, который облегчает процесс перевода и экономит время в условиях недостаточной словарно-справочной обеспеченности процесса ...
Добавлено: 23 февраля 2026 г.
Youth slang as a social language code: funktion and formation
Трофимова Н. А., Pesina S., Vinogradova S. и др., Brazilian Journal of Education, Technology and Society - BRAJETS 2025
Добавлено: 22 февраля 2026 г.
Полисемия агентивных суффиксов в славянских языках: когнитивно-семантический анализ
Андреева А. А., Jezikoslovni Zapiski 2025 Т. 31 № 1 С. 133–163
В статье анализируется полисемия суффиксов существительных, обозначающих деятеля, в шести славянских языках (русском, украинском, польском, чешском, сербском и словенском) с использованием «метонимического» подхода к словообразованию, разработанного Л. Яндой (2011). Рассматриваются семантические особенности глаголов, к которым могут присоединяться суффиксы, обозначающие деятеля, и описываются семантические типы, представленные производными существительными. В работе показано, что суффиксы имени деятеля служат ...
Добавлено: 16 февраля 2026 г.
Автоматическое выявление побуждений в тексте: применение методов компьютерной лингвистики в работе эксперта-лингвиста
П.Е. Белова, А.К. Сафарян, В кн.: Научно-практическая конференция с международным участием "Национальные и международные тенденции и перспективы развития судебной экспертизы". Сборник докладов.: Н. Новгород: Изд-во ННГУ им. Н.И. Лобачевского, 2024.
В данной статье представлено описание системы автоматического поиска и извлечения побуждений из текстов на русском языке FindImper, основанной на поиске глагольных форм и синтаксических связей. Алгоритм реализован на языке программирования Python с использованием библиотек для морфологического и синтаксического анализа и набора правил. Данный инструмент направлен на оптимизацию работы эксперта-лингвиста и доступен к использованию через веб-сайт ...
Добавлено: 30 января 2026 г.
Apposition (Appositional Constructions)
Natalia N. Logvinova, , in: Encyclopedia of Slavic Languages and Linguistics Online.: Brill, 2025. Ch. 11.
В славянских языках различается два типа аппозитивных конструкций — связанные и свободные. В главе обсуждаются вопросы падежного соглаосвания и синтаксической вершинности в связанных аппозитивных конструкциях. С связи со свободными аппозициями, обсуждается их функциональное разнообразие и отличие от связанных аппозитивных конструкций. ...
Добавлено: 22 декабря 2025 г.
Nominative Object
Ронько Р. В., Wiemer B., , in: Encyclopedia of Slavic Languages and Linguistics Online.: Brill, 2020.
Добавлено: 19 декабря 2025 г.
Диалектометрический подход к диалектной классификации восточнославянских языков на материале сборника «Восточнославянские изоглоссы»
Манусов А. В., Кузьмина А. С., Вопросы языкового родства 2024 № 22/3-4 С. 342–366
В тексте работы предложен новый диалектометрический подход к членению восточнославянских языков. Наша диалектометрия основана на материале сборника статей «Восточнославянские изоглоссы» (ВСИ-1 1995; ВСИ-2 1998; ВСИ-3 2000; ВСИ-4 2006), который представляет собой обобщение данных атласов восточнославянских языков (АУМ, ДАБМ, ДАРЯ). Карты ВСИ были перенесены нами в электронный формат, при этом каждый признак, представленный на изначальной карте, ...
Добавлено: 13 ноября 2025 г.
Палеославистика 6. Славянское и балканское языкознание. Выпуск 25
Савич В., Паскаль А. Д., Вершинин К. В. и др., Полимедиа, 2025.
Том «Палеославистика – 6» серии «Славянское и балканское языкознание» представляет собой монографию международного коллектива авторов. Разделы коллективной монографии посвящены обсуждению новейших результатов текущих исследований славянских рукописей X–XIV вв. – их языка, текстологии и палеографии. ...
Добавлено: 12 ноября 2025 г.
Automatic Morpheme Segmentation for Russian: Can an Algorithm Replace Experts?
Morozov D., Garipov T., Ляшевская О. Н. и др., Journal of Language and Education 2024 Vol. 10 No. 4 P. 71–84
Introduction: Numerous algorithms have been proposed for the task of automatic morpheme segmentation of Russian words. Due to the differences in task formulation and datasets utilized, comparing the quality of these algorithms is challenging. It is unclear whether the errors in the models are due to the ineffectiveness of algorithms themselves or to errors and inconsistencies ...
Добавлено: 7 января 2025 г.
Проприетивные и привативные аффиксы в некоторых уральских языках: о маркированности и (не)словоизменительном статусе
Лапшина К. М., Вопросы языкознания 2025 № 1 С. 95–118
В работе на данных корпусов и грамматических описаний исследуются морфосинтаксические свойства проприетивных и привативных показателей, выраженных связанными морфемами, в некоторых уральских языках. Такие показатели присоединяются преимущественно к субстантивным основам и образуют производные со значением ‘обладающий Х-ом’ и ‘лишённый Х-а’ соответственно. Первая часть исследования посвящена сопоставлению морфосинтаксических свойств проприетивных и привативных аффиксов как в выборке в целом, ...
Добавлено: 19 декабря 2024 г.
  • О ВЫШКЕ
  • Цифры и факты
  • Руководство и структура
  • Устойчивое развитие в НИУ ВШЭ
  • Преподаватели и сотрудники
  • Корпуса и общежития
  • Закупки
  • Обращения граждан в НИУ ВШЭ
  • Фонд целевого капитала
  • Противодействие коррупции
  • Сведения о доходах, расходах, об имуществе и обязательствах имущественного характера
  • Сведения об образовательной организации
  • Людям с ограниченными возможностями здоровья
  • Единая платежная страница
  • Работа в Вышке
  • ОБРАЗОВАНИЕ
  • Лицей
  • Довузовская подготовка
  • Олимпиады
  • Прием в бакалавриат
  • Вышка+
  • Прием в магистратуру
  • Аспирантура
  • Дополнительное образование
  • Центр развития карьеры
  • Бизнес-инкубатор ВШЭ
  • Образовательные партнерства
  • Обратная связь и взаимодействие с получателями услуг
  • НАУКА
  • Научные подразделения
  • Исследовательские проекты
  • Мониторинги
  • Диссертационные советы
  • Защиты диссертаций
  • Академическое развитие
  • Конкурсы и гранты
  • Внешние научно-информационные ресурсы
  • РЕСУРСЫ
  • Библиотека
  • Издательский дом ВШЭ
  • Книжный магазин «БукВышка»
  • Типография
  • Медиацентр
  • Журналы ВШЭ
  • Публикации
  • http://www.minobrnauki.gov.ru/
    Министерство науки и высшего образования РФ
  • https://edu.gov.ru/
    Министерство просвещения РФ
  • http://www.edu.ru
    Федеральный портал «Российское образование»
  • https://elearning.hse.ru/mooc
    Массовые открытые онлайн-курсы
  • НИУ ВШЭ1993–2026
  • Адреса и контакты
  • Условия использования материалов
  • Политика конфиденциальности
  • Правила применения рекомендательных технологий в НИУ ВШЭ
  • Карта сайта
Редактору