MorphoRuEval-2017: an Evaluation Track for the Automatic Morphological Analysis Methods for Russian

A. Sorokin; T. Shavrina; O. Lyashevskaya; S. V. Alexeeva; Bocharov V.; A. Fenogenova; D. Granovsky

?

MorphoRuEval-2017: an Evaluation Track for the Automatic Morphological Analysis Methods for Russian

P. 297–313.

Sorokin A., Шаврина Т. О., Ляшевская О. Н., Дроганова К. А., Алексеева С. В., Bocharov V., Феногенова А. С., Грановский Д.

MorphoRuEval-2017 — соревнование по морфологической разметке, призванное стимулировать развитие технологий морфологической обработки текстов на русском языке, в особенности текстов из сети Интернет, как нормативных( новости, литературные тексты), так и менее формального характера (блоги и другие социальные медиа). Данная статья посвящена сравнению методов, использованных командами-участниками соревнования, а также проблемам унификации различных существующих обучающих коллекций для русского языка.

Язык: английский

Полный текст

Ключевые слова: морфологический анализ automated morphological analysis morphological disambiguation universal dependencies POS tagging снятие омонимии частеречная разметка

В книге

Computational Linguistics and Intellectual Technologies. International Conference "Dialogue 2017" Proceedings

Vol. 1. Issue 16 (23). , M.: -, 2017.

Автоматическое выявление побуждений в тексте: применение методов компьютерной лингвистики в работе эксперта-лингвиста

П.Е. Белова, А.К. Сафарян, В кн.: Научно-практическая конференция с международным участием "Национальные и международные тенденции и перспективы развития судебной экспертизы". Сборник докладов.: Н. Новгород: Изд-во ННГУ им. Н.И. Лобачевского, 2024.

В данной статье представлено описание системы автоматического поиска и извлечения побуждений из текстов на русском языке FindImper, основанной на поиске глагольных форм и синтаксических связей. Алгоритм реализован на языке программирования Python с использованием библиотек для морфологического и синтаксического анализа и набора правил. Данный инструмент направлен на оптимизацию работы эксперта-лингвиста и доступен к использованию через веб-сайт ...

Добавлено: 30 января 2026 г.

Языковые модели для предобработки текстов в машинном переводе

Мыльникова А. В., Мыльников Л. А., Научно-техническая информация. Серия 2: Информационные процессы и системы 2025 № 7 С. 32–44

Рассмотрена модель использования скелетных структур на базе синтаксической разметки для предобработки корпусов текстов перед передачей в нейросетевые модели машинного перевода с целью повышения качества их работы, реализованная с помощью частеречной и синтаксической разметок корпусов текстов, использующих языковую модель, с использованием сети BERT и набора правил. Описана подготовка данных для обучения и предложены способы повышения эффективности ...

Добавлено: 22 сентября 2025 г.

BERT-like Models for Slavic Morpheme Segmentation

Morozov D., Astapenka L., Glazkova A. и др., , in: Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)Vol. 1: Long papers.: Association for Computational Linguistics, 2025. P. 6795–6815.

Алгоритмы автоматической сегментации морфем применимы в различных задачах, таких как построение токенизаторов и обучение языку. Для славянских языков разработка таких алгоритмов осложняется богатыми деривационными возможностями этих языков. Предыдущие исследования показали, что в среднем эти алгоритмы уже достигли экспертного уровня качества. Однако ключевой нерешенной проблемой является значительное снижение производительности при сегментации слов, содержащих корни, отсутствующие в ...

Добавлено: 17 июля 2025 г.

Автоматизация процесса поиска побуждений и извлечения их из текста.

Белова П.Е., Сафарян А. К., В кн.: Современный медиатекст и судебная экспертиза: междисциплинарные связи и экспертная оценка: сборник научных работ по итогам Международной научно-практической конференции «Современный медиатекст и судебная экспертиза: междисциплинарные связи и экспертная оценка».: М.: ООО «СОЮЗКНИГ», 2023. С. 46–56.

В статье представлено описание системы автоматического поиска и извлечения побуждений из текстов на русском языке FindImper, основанной на поиске глагольных форм, выражающих значение побуждения, и реализованной на языке Python с использованием библиотек для морфологического и синтаксического анализа и набора правил. ...

Добавлено: 29 октября 2023 г.

Building a Universal Dependencies Treebank for a Polysynthetic Language: the Case of Abaza

Кошевой А. Г., Панова А. Б., Макарчук И. В., , in: Proceedings of the Sixth Workshop on Universal Dependencies (UDW, GURT/SyntaxFest 2023).: Washington: Association for Computational Linguistics, 2023. P. 1–6.

Добавлено: 20 марта 2023 г.

Proceedings of the Sixth Workshop on Universal Dependencies (UDW, GURT/SyntaxFest 2023)

Washington: Association for Computational Linguistics, 2023.

Добавлено: 20 марта 2023 г.

Sculpting enhanced dependencies for Belarusian

Yana Shishkina, Ляшевская О. Н., , in: Analysis of Images, Social Networks and Texts. 10th International Conference, AIST 2021, Tbilisi, Georgia, December 16–18, 2021, Revised Selected Papers.: Cham: Springer, 2022. P. 137–147.

Добавлено: 4 января 2022 г.

An HMM-based PoS tagger for Old Church Slavonic

Ляшевская О. Н., Афанасьев И. А., Jazykovedny Casopis 2021 Vol. 72 No. 2 P. 556–567

Добавлено: 21 октября 2021 г.

Length of East Caucasian subject indexes: a quantative research

Мороз Г. А., , in: Дурхъаси хазна. Сборник статей к 60-летию Р. О. Муталова.: М.: Буки Веди, 2021. P. 258–282.

Добавлено: 23 мая 2021 г.

Инкрементальное предсказание морфологической парадигмы неизвестных слов русского языка

Люкина Е. В., Лытаева М. А., Вестник Томского государственного университета. Филология 2020 № 68 С. 27–41

Статья посвящена новому методу предсказания морфологической парадигмы неизвестных (несловарных) слов русского языка. Метод позволяет в инкрементальном режиме, т.е. по мере поступления очередной словоформы, в полностью автоматическом режиме, без участия человека, предсказать морфологическую парадигму слова. Метод основан на ансамблевом предсказании морфологической парадигмы по одной словоформе и последовательном формировании частичных парадигм по нескольким словоформам, на основе которых ...

Добавлено: 11 декабря 2020 г.

The smaller the better? Heterogeneity of corpus, training size, and morphological tagging

Ляшевская О. Н., Ostyakova L., Сальников Е. А. и др., , in: Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной международной конференции «Диалог» (Москва, 17 июня — 20 июня 2020 г.). Дополнительный том материалов.: M.: ., 2020. P. 1091–1108.

Гетерогенность орфографии и грамматического строя текстов старорусской письменности создают существенные трудности для автоматической частеречной и морфологической разметки. Существующие подходы демонстрируют хорошие результаты, не прибегая к помощи нормализации, однако все они, тем не менее, чувствительны к любым изменениям пропорций элементов тренировочного датасета и жанровой неоднородности. В данной работе мы проанализировали влияние этих факторов на качество автоматической ...

Добавлено: 3 июля 2020 г.

Adapting the Graph2Vec Approach to Dependency Trees for NLP Tasks

Дурандин О. В., Малафеев А. Ю., , in: Analysis of Images, Social Networks and Texts. 8th International Conference, AIST 2019, Kazan, Russia, July 17–19, 2019, Revised Selected Papers. Communications in Computer and Information ScienceVol. 1086.: Springer, 2020. P. 120–131.

Добавлено: 16 ноября 2019 г.

A Reusable Tagset for the Morphologically Rich Language in Change: a Case of Middle Russian

Ляшевская О. Н., , in: Computational Linguistics and Intellectual TechnologiesIssue 18.: M.: Russian State University for the Humanitie, 2019. P. 422–434.

Статья посвящена созданию морфологического стандарта для разметки Старорусского корпуса, который входит в состав исторических корпусов Национального корпуса русского языка (НКРЯ). Для того, чтобы сделать разметку удобной для лингвистов, работающих с историческими и современными корпусами, а также для разработчиков систем автоматической обработки исторических текстов, мы предусматриваем две параллельные схемы морфологической разметки, в нотации НКРЯ и Универсальных зависимостей ...

Добавлено: 12 июня 2019 г.

Amateur Prose On The Web: Verb Construction As A Feature Of Genre Classification

Буйлова Н. Н., , in: Proceedings of Third Workshop "Computational linguistics and language science"Issue 4.: Manchester: EasyChair, 2019.

Добавлено: 11 декабря 2018 г.

REALEC learner treebank: annotation principles and evaluation of automatic parsing

Ляшевская О. Н., Пантелеева И. М., , in: Proceedings of the 16th International Workshop on Treebanks and Linguistic Theories (TLT 16).: Association for Computational Linguistics, 2017. P. 80–87.

Добавлено: 11 декабря 2018 г.

Data Conversion and Consistency of Monolingual Corpora: Russian UD Treebanks

Дроганова К. А., Ляшевская О. Н., Zeman D., , in: Proceedings of TLT 2018 International Workshop on Treebanks and Linguistic Theories, 13-14 November 2018, Oslo, Norway. NEALT Proceedings Series.: Linköping University Electronic Press, 2018. P. 52–65.

Добавлено: 6 ноября 2018 г.

Cross-tagset parsing evaluation for Russian

Дроганова К. А., Ляшевская О. Н., , in: Digital Transformation and Global Society Third International Conference, DTGS 2018, St. Petersburg, Russia, May 30 –June 2, 2018, Revised Selected Papers, Part IIssue 858.: Cham: Springer, 2018. Ch. 31 P. 380–390.

Добавлено: 10 октября 2018 г.

Automatic morphological analysis on the material of Russian social media texts

Феногенова А. С., Kazorin V., Карпов И. А. и др., , in: Proceedings of Third Workshop "Computational linguistics and language science"Issue 4.: Manchester: EasyChair, 2019. P. 11–17.

Добавлено: 5 октября 2018 г.