The smaller the better? Heterogeneity of corpus, training size, and morphological tagging

O. Lyashevskaya; Ostyakova L.

doi:10.28995/2075-7182-2020-19-1091-1108

Публикации

?

The smaller the better? Heterogeneity of corpus, training size, and morphological tagging

P. 1091–1108.

Ляшевская О. Н., Ostyakova L., Сальников Е. А., Семенова О. А.

Гетерогенность орфографии и грамматического строя текстов старорусской письменности создают существенные трудности для автоматической частеречной и морфологической разметки. Существующие подходы демонстрируют хорошие результаты, не прибегая к помощи нормализации, однако все они, тем не менее, чувствительны к любым изменениям пропорций элементов тренировочного датасета и жанровой неоднородности. В данной работе мы проанализировали влияние этих факторов на качество автоматической морфологической разметки. Наше исследование показало, что качество морфологической разметки моделей UDpipe повышается по мере снижения объёма тренировочных данных. Именно поэтому нами была предпринята попытка проанализировать дистрибуцию частей речи и слов, состоящих из малого количества символов (2-3), в тренировочных выборках.

Язык: английский

Полный текст

DOI

Текст на другом сайте

Ключевые слова: part of speech tagging морфологическая разметка частеречная разметка full morphological tagging historical data corpus size corpus data homogeneity автоматическая обработка исторических текстов

В книге

Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной международной конференции «Диалог» (Москва, 17 июня — 20 июня 2020 г.). Дополнительный том материалов

M.: ., 2020.

Transformer-based approaches for lemmatizing abbreviations in Russian texts

Glazkova A., Ляшевская О. Н., Morozov D. и др., Journal of Mathematical Sciences 2025 Vol. 546 P. 32–47

Добавлено: 10 марта 2026 г.

Грамматический ландшафт художественной прозы: динамика частеречных распределений в русском рассказе XX века

Кирина М. А., В кн.: Русская грамматика: полипарадигмальность как методологический принцип современных научных исследований : материалы IX Международного научного симпозиума.: Издательство ИГУ, 2025. С. 270–275.

В статье представлены результаты пилотного исследования, направленного на описание дистрибуции частей речи в синхронии и диахронии на материале русской прозы малой формы. Рассматриваются изменения морфологического состава художественных текстов (на уровне грамматических классов) на протяжении XX века в соответствии с 9 историко-культурными периодами. Материалом исследования выступает выборка из 943 рассказов суммарным объемом более 3 млн. словоупотреблений. ...

Добавлено: 28 февраля 2026 г.

Языковые модели для предобработки текстов в машинном переводе

Мыльникова А. В., Мыльников Л. А., Научно-техническая информация. Серия 2: Информационные процессы и системы 2025 № 7 С. 32–44

Рассмотрена модель использования скелетных структур на базе синтаксической разметки для предобработки корпусов текстов перед передачей в нейросетевые модели машинного перевода с целью повышения качества их работы, реализованная с помощью частеречной и синтаксической разметок корпусов текстов, использующих языковую модель, с использованием сети BERT и набора правил. Описана подготовка данных для обучения и предложены способы повышения эффективности ...

Добавлено: 22 сентября 2025 г.

Disambiguation in context in the Russian National Corpus: 20 yeas later

Ляшевская О. Н., Афанасьев И. А., Stefan Rebrikov и др., , in: Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной международной конференции «Диалог». Вып. 22.Вып. 22.: [б.и.], 2023. P. 307–318.

Добавлено: 15 сентября 2023 г.

The Use of Khislavichi Lect Morphological Tagging to Determine its Position in the East Slavic Group

Афанасьев И. А., , in: Proceedings of Tenth Workshop on NLP for Similar Languages, Varieties and Dialects (VarDial 2023).: Association for Computational Linguistics, 2023. P. 174–186.

Добавлено: 15 мая 2023 г.

Proceedings of Tenth Workshop on NLP for Similar Languages, Varieties and Dialects (VarDial 2023)

Association for Computational Linguistics, 2023.

Добавлено: 15 мая 2023 г.

An HMM-based PoS tagger for Old Church Slavonic

Ляшевская О. Н., Афанасьев И. А., Jazykovedny Casopis 2021 Vol. 72 No. 2 P. 556–567

Добавлено: 21 октября 2021 г.

A Reusable Tagset for the Morphologically Rich Language in Change: a Case of Middle Russian

Ляшевская О. Н., , in: Computational Linguistics and Intellectual TechnologiesIssue 18.: M.: Russian State University for the Humanitie, 2019. P. 422–434.

Статья посвящена созданию морфологического стандарта для разметки Старорусского корпуса, который входит в состав исторических корпусов Национального корпуса русского языка (НКРЯ). Для того, чтобы сделать разметку удобной для лингвистов, работающих с историческими и современными корпусами, а также для разработчиков систем автоматической обработки исторических текстов, мы предусматриваем две параллельные схемы морфологической разметки, в нотации НКРЯ и Универсальных зависимостей ...

Добавлено: 12 июня 2019 г.

MorphoRuEval-2017: an Evaluation Track for the Automatic Morphological Analysis Methods for Russian

Sorokin A., Шаврина Т. О., Ляшевская О. Н. и др., , in: Computational Linguistics and Intellectual Technologies. International Conference "Dialogue 2017" ProceedingsVol. 1. Issue 16 (23).: M.: -, 2017. P. 297–313.

MorphoRuEval-2017 — соревнование по морфологической разметке, призванное стимулировать развитие технологий морфологической обработки текстов на русском языке, в особенности текстов из сети Интернет, как нормативных( новости, литературные тексты), так и менее формального характера (блоги и другие социальные медиа). Данная статья посвящена сравнению методов, использованных командами-участниками соревнования, а также проблемам унификации различных существующих обучающих коллекций для русского ...

Добавлено: 9 октября 2018 г.

Тестовая коллекция для задач автоматического морфологического анализа текстов старорусской письменности

Ляшевская О. Н., В кн.: Научное наследие Научное наследие В.А. Богородицкого и современный вектор исследований Казанской лингвистической школы. Труды и материалы межд. конф.Т. 1.: Каз.: Издательство Казанского университета, 2018. С. 131–135.

В статье описывается тестовый корпус объемом ок. 10 тысяч токенов, созданный в качестве стандарта оценки качества систем анализа старорусских текстов XV-XVII в. Излагаются принципы отбора текстов и процедура их разметки. ...

Добавлено: 9 октября 2018 г.

Redefining part-of-speech classes with distributional semantic models

Кутузов А. Б., Velldal E., Øvrelid L., , in: Proceedings of The 20th SIGNLL Conference on Computational Natural Language Learning.: Berlin: Association for Computational Linguistics, 2016. P. 115–125.

Добавлено: 12 ноября 2016 г.

Параметрическая оптимизация точности морфологической разметки текстов

Клышинский Э. С., Рысаков С. В., Новые информационные технологии в автоматизированных системах 2016

Статья знакомит читателя с базовыми понятиями параметрической оптимизации. Описывается разработанная модель аппроксимация вероятности, функции-счётчики и коэффициенты корреляции. Небольшое внимание уделено методу полного перебора, в результате работы которого достигнуты новые показатели точности. В конце приведена модификация метода снятия омонимии, разработанная авторами. ...

Добавлено: 14 июня 2016 г.

Морфосинтаксическая разметка текста на китайском языке с помощью статистических анализаторов: методика, оценка качества.

Кубатиева А. А., В кн.: I Молодежная международная конференция «Методы точных наук в востоковедении», 10-11 ноября 2015 г.: Материалы конференции.: СПб.: Издательство РХГА, 2015.

Данная работа посвящена критериям выделения морфосинтаксических категорий в китайском языке и их моделированию для автоматической частеречной разметки текста. В работе приведен краткий обзор основных критериев выделения частей речи в современном китайском языке, их оценка с точки зрения задач автоматической обработки текста, в частности, с точки зрения частеречной разметки текста и использования статистических моделей. С помощью ...

Добавлено: 10 декабря 2015 г.

Статистические методы снятия омонимии

Клышинский Э. С., Рысаков С. В., Новые информационные технологии в автоматизированных системах 2015 С. 555–563

Статья знакомит читателя со статистическими методами устранения морфологической неоднозначности. Описывается процесс насыщения, параметры методов и n-грамм. Большое внимание уделено методам снятия омонимии, в обзоре которых описания сопровождены практическими оценками и даны алгоритмы их работы. В конце приведено сравнение качества методов дизамбигуации, осуществлённое авторами. ...

Добавлено: 25 ноября 2015 г.

Методы борьбы с омонимией

Рысаков С. В., Системный администратор 2015 № 10(155) С. 92–95

Сейчас кажется привычной возможность задать вопрос любимой поисковой системе и моментально получить от нее соответствующий ответ. Для пользователя процесс может показаться простым, в то время как поисковый алгоритм встречает несколько препятствий, среди которых важное место занимает языковой барьер: вопрос, как правило, задается на естественном языке, которому в отличие от компьютерного языка поискового алгоритма присуща неоднозначность. ...

Добавлено: 25 ноября 2015 г.

Crowdsourcing morphological annotation

Bocharov V. V., Alexeeva S. V., Granovsky D. V. и др., , in: Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 29 мая - 2 июня 2013 г.). В 2-х т.Т. 1: Основная программа конференции. Вып. 12 (19).: М.: РГГУ, 2013.

Добавлено: 18 ноября 2013 г.