A Reusable Tagset for the Morphologically Rich Language in Change: a Case of Middle Russian

O. Lyashevskaya

?

A Reusable Tagset for the Morphologically Rich Language in Change: a Case of Middle Russian

P. 422–434.

Статья посвящена созданию морфологического стандарта для разметки Старорусского корпуса, который входит в состав исторических корпусов Национального корпуса русского языка (НКРЯ). Для того, чтобы сделать разметку удобной для лингвистов, работающих с историческими и современными корпусами, а также для разработчиков систем автоматической обработки исторических текстов, мы предусматриваем две параллельные схемы морфологической разметки, в нотации НКРЯ и Универсальных зависимостей (Universal Dependencies). Предлагается ряд спецификаций тагсета для облегчения совмещения разметок разных корпусов, связывания и конвертирования данных.

Язык: английский

Полный текст

Текст на другом сайте

Ключевые слова: Национальный корпус русского языка древнерусский язык лемматизация Russian National Corpus лексико-грамматическая разметка universal dependencies Middle Russian старорусская письменность исторические корпуса lemmatization Old Russian POS tagging частеречная разметка full morphology tagging tagset historical corpora тагсет

ПУБЛИКАЦИЯ ПОДГОТОВЛЕНА ПО РЕЗУЛЬТАТАМ ПРОЕКТА:

Конвергентные процессы в языках России (2019)

В книге

Computational Linguistics and Intellectual Technologies

Issue 18. , M.: Russian State University for the Humanitie, 2019.

Деепричастия в русском языке XVIIв.: переходный период в истории формирования их грамматического значения

Ермолова М. В., Russian Linguistics 2026 Т. 50 Статья 14

В статье анализируется функционирование деепричастий в русском языке XVII в. На основе анализа контекстов, отсутствующих в современном русском языке, делаются выводы о том, что в XVII в. деепричастие теряло абсолютное временное значение, ко торое имело некогда, приобретая относительное значение в зависимости от времени главного сказуемого, но оставалось при этом предикатом еще формальнонезависимой клаузы. Закрепление за ...

Добавлено: 4 июля 2026 г.

Дискриминативная лемматизация сокращений в эпоху LLM

Глазкова А. В., Смаль И. В., Ляшевская О. Н. и др., Доклады Российской академии наук. Математика, информатика, процессы управления (ранее - Доклады Академии Наук. Математика) 2025 Т. 527 С. 146–155

В работе представлено исследование эффективности дискриминативных методов лемматизации сокращений в русскоязычных текстах. В отличие от генеративных подходов, дискриминативные модели осуществляют выбор оптимальной леммы из фиксированного набора вариантов, что исключает риск генерации грамматически некорректных словоформ. Впервые для русского языка проводится комплексный анализ четырех контекстно-ориентированных подходов: (1) ранжирования на основе маскированного языкового моделирования, (2) бинарной классификации, (3) ...

Добавлено: 10 марта 2026 г.

Rubic2: Ensemble Model for Russian Lemmatization

Афанасьев И. А., Glazkova A., Ляшевская О. Н. и др., , in: Proceedings of the 10th Workshop on Slavic Natural Language Processing (Slavic NLP 2025).: Association for Computational Linguistics, 2025. P. 157–170.

Добавлено: 10 марта 2026 г.

Transformer-based approaches for lemmatizing abbreviations in Russian texts

Glazkova A., Ляшевская О. Н., Morozov D. и др., Journal of Mathematical Sciences 2025 Vol. 546 P. 32–47

Добавлено: 10 марта 2026 г.

Nominative Object

Ронько Р. В., Wiemer B., , in: Encyclopedia of Slavic Languages and Linguistics Online.: Brill, 2020.

Добавлено: 19 декабря 2025 г.

Building a Clean Bartangi Language Corpus and Training Word Embeddings for Low-Resource Language Modeling

Shumen: INCOMA Ltd, 2025.

Добавлено: 20 октября 2025 г.

The Twofold Nature of Old East Slavic Iže

Anna A. Fitiskina, Russian linguistics 2025 Vol. 49 Article 4

Добавлено: 26 сентября 2025 г.

Языковые модели для предобработки текстов в машинном переводе

Мыльникова А. В., Мыльников Л. А., Научно-техническая информация. Серия 2: Информационные процессы и системы 2025 № 7 С. 32–44

Рассмотрена модель использования скелетных структур на базе синтаксической разметки для предобработки корпусов текстов перед передачей в нейросетевые модели машинного перевода с целью повышения качества их работы, реализованная с помощью частеречной и синтаксической разметок корпусов текстов, использующих языковую модель, с использованием сети BERT и набора правил. Описана подготовка данных для обучения и предложены способы повышения эффективности ...

Добавлено: 22 сентября 2025 г.

Берестяные грамоты из раскопок 2024 г. I. Великий Новгород, Троицкий раскоп

Гиппиус А. А., Вопросы языкознания 2025 № 4 С. 7–41

Статья содержит предварительную публикацию 30 берестяных грамот XII–XIV вв., найденных в археологическом сезоне 2024 г. на Троицком раскопе в Великом Новгороде. Подавляющее большинство публикуемых текстов датируются XII в. В историческом и филологическом отношении выделяются: письмо с упоминанием военного похода и связанных с ним переговоров с князем (№ 1186), письмо о судебном деле с упоминанием ордалий — испытания водой (№ 1187), ...

Добавлено: 21 сентября 2025 г.

О национальном корпусе русского языка

Рахилина Е. В., Вестник Российской академии наук 2024 Т. 94 № 9 С. 795–803

Статья посвящена проекту создания Национального корпуса русского языка (НКРЯ) – мощной справочно-информационной системы по русскому языку, которая была разработана консорциумом организаций РАН с участием компании “Яндекс”. Описаны история создания Корпуса, основной его функционал и пути совершенствования, а также наиболее технологичные подкорпуса – поэтический, параллельный, мультимедийный; приведены примеры их работы. Особое внимание уделено последним разработкам, которые ...

Добавлено: 25 февраля 2025 г.

Корпусная лингвистика на современном этапе

Плунгян В. А., Вестник Российской академии наук 2024 Т. 94 № 9 С. 787–794

Даётся общее представление о корпусной лингвистике, её истории, методах и влиянии на современные представления об изучении языка, которое обычно обозначается как “корпусная революция”. ...

Добавлено: 16 декабря 2024 г.

Берестяные грамоты из раскопок 2023 г. в Великом Новгороде и Старой Руссе

Гиппиус А. А., Вопросы языкознания 2024 № 4 С. 7–26

Статья содержит предварительную публикацию 19 берестяных грамот XII — начала XVI в., найденных в археологическом сезоне 2023 г. в Великом Новгороде (№ 1158–1172) и Старой Руссе (№ 55–58). В историческом отношении наибольшую ценность представляют три грамоты XIV в.: № 1164 — запись разверстки сбора податей, отражающая децимальное членение населения Новгородской земли, № 1164 — челобитная, адресованная корпорации «скотников ...

Добавлено: 7 сентября 2024 г.

Промузг(а): «гапакс» Кирика Новгородца

Фитискина А. А., В кн.: От сорочка к Олекше: Сборник статьей к 60-летию А. А. Гиппиуса.: М.: РАНХиГС, 2023.

Статья посвящена истории слова промузгы (Им. мн.) из «Учения» Кирика Новгородца — календарно-математического по- собия XII в. Исследователи, как правило, считают это слово гапаксом, хотя в действительности оно также встречается в ки- риллическом тексте Боянского евангелия и «Пандектах» Нико- на Черногорца. Значение слова *промузгъ / *промузга выводится на основе предположения о родстве праславянских корней *muzg- ...

Добавлено: 15 мая 2024 г.

Берестяные грамоты из раскопок 2022 г. в Великом Новгороде и Старой Руссе

Гиппиус А. А., Вопросы языкознания 2023 № 5 С. 7–28

Статья содержит предварительную публикацию двенадцати берестяных грамот XII — первой половины XV в., найденных в археологическом сезоне 2022 г. в Великом Новгороде (№ 1146–1157) и Старой Руссе (№ 53, 54), а также грамот № 1142 и 1143 из раскопок 2021 г., не вошедших в предыдущую публикацию. ...

Добавлено: 13 февраля 2024 г.