?
A Reusable Tagset for the Morphologically Rich Language in Change: a Case of Middle Russian
P. 422–434.
Статья посвящена созданию морфологического стандарта для разметки Старорусского корпуса, который входит в состав исторических корпусов Национального корпуса русского языка (НКРЯ). Для того, чтобы сделать разметку удобной для лингвистов, работающих с историческими и современными корпусами, а также для разработчиков систем автоматической обработки исторических текстов, мы предусматриваем две параллельные схемы морфологической разметки, в нотации НКРЯ и Универсальных зависимостей (Universal Dependencies). Предлагается ряд спецификаций тагсета для облегчения совмещения разметок разных корпусов, связывания и конвертирования данных.
Ключевые слова: Национальный корпус русского языкадревнерусский языклемматизацияRussian National Corpusлексико-грамматическая разметкаuniversal dependenciesMiddle Russianстарорусская письменностьисторические корпусаlemmatizationOld RussianPOS taggingчастеречная разметкаfull morphology taggingtagsethistorical corporaтагсет
ПУБЛИКАЦИЯ ПОДГОТОВЛЕНА ПО РЕЗУЛЬТАТАМ ПРОЕКТА:
В книге
Issue 18. , M.: Russian State University for the Humanitie, 2019.
Глазкова А. В., Смаль И. В., Ляшевская О. Н. и др., Доклады Российской академии наук. Математика, информатика, процессы управления (ранее - Доклады Академии Наук. Математика) 2025 Т. 527 С. 146–155
В работе представлено исследование эффективности дискриминативных методов лемматизации сокращений в русскоязычных текстах. В отличие от генеративных подходов, дискриминативные модели осуществляют выбор оптимальной леммы из фиксированного набора вариантов, что исключает риск генерации грамматически некорректных словоформ. Впервые для русского языка проводится комплексный анализ четырех контекстно-ориентированных подходов: (1) ранжирования на основе маскированного языкового моделирования, (2) бинарной классификации, (3) ...
Добавлено: 10 марта 2026 г.
Афанасьев И. А., Glazkova A., Ляшевская О. Н. и др., , in: Proceedings of the 10th Workshop on Slavic Natural Language Processing (Slavic NLP 2025).: Association for Computational Linguistics, 2025. P. 157–170.
Добавлено: 10 марта 2026 г.
Glazkova A., Ляшевская О. Н., Morozov D. и др., Journal of Mathematical Sciences 2025 Vol. 546 P. 32–47
Добавлено: 10 марта 2026 г.
Ронько Р. В., Wiemer B., , in: Encyclopedia of Slavic Languages and Linguistics Online.: Brill, 2020.
Добавлено: 19 декабря 2025 г.
Shumen: INCOMA Ltd, 2025.
Добавлено: 20 октября 2025 г.
Мыльникова А. В., Мыльников Л. А., Научно-техническая информация. Серия 2: Информационные процессы и системы 2025 № 7 С. 32–44
Рассмотрена модель использования скелетных структур на базе синтаксической разметки для предобработки корпусов текстов перед передачей в нейросетевые модели машинного перевода с целью повышения качества их работы, реализованная с помощью частеречной и синтаксической разметок корпусов текстов, использующих языковую модель, с использованием сети BERT и набора правил. Описана подготовка данных для обучения и предложены способы повышения эффективности ...
Добавлено: 22 сентября 2025 г.
Гиппиус А. А., Вопросы языкознания 2025 № 4 С. 7–41
Статья содержит предварительную публикацию 30 берестяных грамот XII–XIV вв., найденных в археологическом сезоне 2024 г. на Троицком раскопе в Великом Новгороде. Подавляющее большинство публикуемых текстов датируются XII в. В историческом и филологическом отношении выделяются: письмо с упоминанием военного похода и связанных с ним переговоров с князем (№ 1186), письмо о судебном деле с упоминанием ордалий — испытания водой (№ 1187), ...
Добавлено: 21 сентября 2025 г.
Рахилина Е. В., Вестник Российской академии наук 2024 Т. 94 № 9 С. 795–803
Статья посвящена проекту создания Национального корпуса русского языка (НКРЯ) – мощной справочно-информационной системы по русскому языку, которая была разработана консорциумом организаций РАН с участием компании “Яндекс”. Описаны история создания Корпуса, основной его функционал и пути совершенствования, а также наиболее технологичные подкорпуса – поэтический, параллельный, мультимедийный; приведены примеры их работы. Особое внимание уделено последним разработкам, которые ...
Добавлено: 25 февраля 2025 г.
Плунгян В. А., Вестник Российской академии наук 2024 Т. 94 № 9 С. 787–794
Даётся общее представление о корпусной лингвистике, её истории, методах и влиянии на современные представления об изучении языка, которое обычно обозначается как “корпусная революция”. ...
Добавлено: 16 декабря 2024 г.
Гиппиус А. А., Вопросы языкознания 2024 № 4 С. 7–26
Статья содержит предварительную публикацию 19 берестяных грамот XII — начала XVI в., найденных в археологическом сезоне 2023 г. в Великом Новгороде (№ 1158–1172) и Старой Руссе (№ 55–58). В историческом отношении наибольшую ценность представляют три грамоты XIV в.: № 1164 — запись разверстки сбора податей, отражающая децимальное членение населения Новгородской земли, № 1164 — челобитная, адресованная корпорации «скотников ...
Добавлено: 7 сентября 2024 г.
Фитискина А. А., В кн.: От сорочка к Олекше: Сборник статьей к 60-летию А. А. Гиппиуса.: М.: РАНХиГС, 2023.
Статья посвящена истории слова промузгы (Им. мн.) из «Учения» Кирика Новгородца — календарно-математического по- собия XII в. Исследователи, как правило, считают это слово гапаксом, хотя в действительности оно также встречается в ки- риллическом тексте Боянского евангелия и «Пандектах» Нико- на Черногорца. Значение слова *промузгъ / *промузга выводится на основе предположения о родстве праславянских корней *muzg- ...
Добавлено: 15 мая 2024 г.
Гиппиус А. А., Вопросы языкознания 2023 № 5 С. 7–28
Статья содержит предварительную публикацию двенадцати берестяных грамот XII — первой половины XV в., найденных в археологическом сезоне 2022 г. в Великом Новгороде (№ 1146–1157) и Старой Руссе (№ 53, 54), а также грамот № 1142 и 1143 из раскопок 2021 г., не вошедших в предыдущую публикацию. ...
Добавлено: 13 февраля 2024 г.