• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • A
  • A
  • A
  • A
  • A
Обычная версия сайта
  • RU
  • EN
  • Национальный исследовательский университет «Высшая школа экономики»
  • Публикации ВШЭ
  • Глава
  • A Reusable Tagset for the Morphologically Rich Language in Change: a Case of Middle Russian
  • RU
  • EN
Расширенный поиск
Высшая школа экономики
Национальный исследовательский университет
Приоритетные направления
  • бизнес-информатика
  • государственное и муниципальное управление
  • гуманитарные науки
  • инженерные науки
  • компьютерно-математическое
  • математика
  • менеджмент
  • право
  • социология
  • экономика
по году
  • 2027
  • 2026
  • 2025
  • 2024
  • 2023
  • 2022
  • 2021
  • 2020
  • 2019
  • 2018
  • 2017
  • 2016
  • 2015
  • 2014
  • 2013
  • 2012
  • 2011
  • 2010
  • 2009
  • 2008
  • 2007
  • 2006
  • 2005
  • 2004
  • 2003
  • 2002
  • 2001
  • 2000
  • 1999
  • 1998
  • 1997
  • 1996
  • 1995
  • 1994
  • 1993
  • 1992
  • 1991
  • 1990
  • 1989
  • 1988
  • 1987
  • 1986
  • 1985
  • 1984
  • 1983
  • 1982
  • 1981
  • 1980
  • 1979
  • 1978
  • 1977
  • 1976
  • 1975
  • 1974
  • 1973
  • 1972
  • 1971
  • 1970
  • 1969
  • 1968
  • 1967
  • 1966
  • 1965
  • 1964
  • 1963
  • 1958
  • еще
Тематика
Новости
18 мая 2026 г.
В Вышке прошла XXX юбилейная научно-техническая конференция имени Е.В. Арменского
Организатором научного события выступает Московский институт электроники и математики им. А.Н. Тихонова ВШЭ. В этом году главный инженерный студенческий форум проходил 30-й раз и собрал рекордное число участников. Студенты, аспиранты и молодые специалисты из 50 вузов и организаций России представили научно-исследовательские доклады в ИТ-области. Отдельная секция была посвящена научно-исследовательским работам школьников.
15 мая 2026 г.
В НИУ ВШЭ разрабатывают нейросеть для сферы науки и инноваций
Исследователи НИУ ВШЭ учат большие языковые модели понимать русскоязычную научную терминологию, увеличивая при этом их энергоэффективность. Адаптированная модель работает в 2,7 раза быстрее и требует на 73% меньше памяти, чем исходная открытая модель, что позволяет запускать ее на более доступном оборудовании. Программа прошла государственную регистрацию.
15 мая 2026 г.
Стартовал совместный спецпроект бренд-медиа Вышки IQ Media и iFORA ИСИЭЗ
В мае 2026 года стартовал научно-популярный проект «Искусственный интеллект: технологии, данные и будущее», который стал результатом работы двух команд — проекта iFORA Института статистических исследований и экономики знаний НИУ ВШЭ и редакции бренд-медиа IQMedia. Медийно-аналитический спецпроект посвящен современному развитию искусственного интеллекта и аналитике больших данных.

 

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!

Публикации
  • Книги
  • Статьи
  • Главы в книгах
  • Препринты
  • Верификация публикаций
  • Расширенный поиск
  • Правила использования материалов
  • Наука в ВШЭ

?

A Reusable Tagset for the Morphologically Rich Language in Change: a Case of Middle Russian

P. 422–434.
Ляшевская О. Н.

Статья посвящена созданию морфологического стандарта для разметки Старорусского корпуса, который входит в состав исторических корпусов Национального корпуса русского языка (НКРЯ). Для того, чтобы сделать разметку удобной для лингвистов, работающих с историческими и современными корпусами, а также для разработчиков систем автоматической обработки исторических текстов, мы предусматриваем две параллельные схемы морфологической разметки, в нотации НКРЯ и Универсальных зависимостей (Universal Dependencies). Предлагается ряд спецификаций тагсета для облегчения совмещения разметок разных корпусов, связывания и конвертирования данных.

Язык: английский
Полный текст
Текст на другом сайте
Ключевые слова: Национальный корпус русского языкадревнерусский языклемматизацияRussian National Corpusлексико-грамматическая разметкаuniversal dependenciesMiddle Russianстарорусская письменностьисторические корпусаlemmatizationOld RussianPOS taggingчастеречная разметкаfull morphology taggingtagsethistorical corporaтагсет
ПУБЛИКАЦИЯ ПОДГОТОВЛЕНА ПО РЕЗУЛЬТАТАМ ПРОЕКТА:
Конвергентные процессы в языках России (2019)

В книге

Computational Linguistics and Intellectual Technologies
Issue 18. , M.: Russian State University for the Humanitie, 2019.
Похожие публикации
Дискриминативная лемматизация сокращений в эпоху LLM
Глазкова А. В., Смаль И. В., Ляшевская О. Н. и др., Доклады Российской академии наук. Математика, информатика, процессы управления (ранее - Доклады Академии Наук. Математика) 2025 Т. 527 С. 146–155
В работе представлено исследование эффективности дискриминативных методов лемматизации сокращений в русскоязычных текстах. В отличие от генеративных подходов, дискриминативные модели осуществляют выбор оптимальной леммы из фиксированного набора вариантов, что исключает риск генерации грамматически некорректных словоформ. Впервые для русского языка проводится комплексный анализ четырех контекстно-ориентированных подходов: (1) ранжирования на основе маскированного языкового моделирования, (2) бинарной классификации, (3) ...
Добавлено: 10 марта 2026 г.
Rubic2: Ensemble Model for Russian Lemmatization
Афанасьев И. А., Glazkova A., Ляшевская О. Н. и др., , in: Proceedings of the 10th Workshop on Slavic Natural Language Processing (Slavic NLP 2025).: Association for Computational Linguistics, 2025. P. 157–170.
Добавлено: 10 марта 2026 г.
Transformer-based approaches for lemmatizing abbreviations in Russian texts
Glazkova A., Ляшевская О. Н., Morozov D. и др., Journal of Mathematical Sciences 2025 Vol. 546 P. 32–47
Добавлено: 10 марта 2026 г.
Nominative Object
Ронько Р. В., Wiemer B., , in: Encyclopedia of Slavic Languages and Linguistics Online.: Brill, 2020.
Добавлено: 19 декабря 2025 г.
Building a Clean Bartangi Language Corpus and Training Word Embeddings for Low-Resource Language Modeling
Shumen: INCOMA Ltd, 2025.
Добавлено: 20 октября 2025 г.
The Twofold Nature of Old East Slavic Iže
Anna A. Fitiskina, Russian linguistics 2025 Vol. 49 Article 4
Добавлено: 26 сентября 2025 г.
Языковые модели для предобработки текстов в машинном переводе
Мыльникова А. В., Мыльников Л. А., Научно-техническая информация. Серия 2: Информационные процессы и системы 2025 № 7 С. 32–44
Рассмотрена модель использования скелетных структур на базе синтаксической разметки для предобработки корпусов текстов перед передачей в нейросетевые модели машинного перевода с целью повышения качества их работы, реализованная с помощью частеречной и синтаксической разметок корпусов текстов, использующих языковую модель, с использованием сети BERT и набора правил. Описана подготовка данных для обучения и предложены способы повышения эффективности ...
Добавлено: 22 сентября 2025 г.
Берестяные грамоты из раскопок 2024 г. I. Великий Новгород, Троицкий раскоп
Гиппиус А. А., Вопросы языкознания 2025 № 4 С. 7–41
Статья содержит предварительную публикацию 30 берестяных грамот XII–XIV вв., найденных в археологическом сезоне 2024 г. на Троицком раскопе в Великом Новгороде. Подавляющее большинство публикуемых текстов датируются XII в. В историческом и филологическом отношении выделяются: письмо с упоминанием военного похода и связанных с ним переговоров с князем (№ 1186), письмо о судебном деле с упоминанием ордалий — испытания водой (№ 1187), ...
Добавлено: 21 сентября 2025 г.
О национальном корпусе русского языка
Рахилина Е. В., Вестник Российской академии наук 2024 Т. 94 № 9 С. 795–803
Статья посвящена проекту создания Национального корпуса русского языка (НКРЯ) – мощной справочно-информационной системы по русскому языку, которая была разработана консорциумом организаций РАН с участием компании “Яндекс”. Описаны история создания Корпуса, основной его функционал и пути совершенствования, а также наиболее технологичные подкорпуса – поэтический, параллельный, мультимедийный; приведены примеры их работы. Особое внимание уделено последним разработкам, которые ...
Добавлено: 25 февраля 2025 г.
Корпусная лингвистика на современном этапе
Плунгян В. А., Вестник Российской академии наук 2024 Т. 94 № 9 С. 787–794
Даётся общее представление о корпусной лингвистике, её истории, методах и влиянии на современные представления об изучении языка, которое обычно обозначается как “корпусная революция”. ...
Добавлено: 16 декабря 2024 г.
Берестяные грамоты из раскопок 2023 г. в Великом Новгороде и Старой Руссе
Гиппиус А. А., Вопросы языкознания 2024 № 4 С. 7–26
Статья содержит предварительную публикацию 19 берестяных грамот XII — ​начала XVI в., найденных в археологическом сезоне 2023 г. в Великом Новгороде (№ 1158–1172) и Старой Руссе (№ 55–58). В историческом отношении наибольшую ценность представляют три грамоты XIV в.: № 1164 — ​запись разверстки сбора податей, отражающая децимальное членение населения Новгородской земли, № 1164 — ​челобитная, адресованная корпорации «скотников ...
Добавлено: 7 сентября 2024 г.
Промузг(а): «гапакс» Кирика Новгородца
Фитискина А. А., В кн.: От сорочка к Олекше: Сборник статьей к 60-летию А. А. Гиппиуса.: М.: РАНХиГС, 2023.
Статья посвящена истории слова промузгы (Им. мн.) из «Учения» Кирика Новгородца — календарно-математического по- собия XII в. Исследователи, как правило, считают это слово гапаксом, хотя в действительности оно также встречается в ки- риллическом тексте Боянского евангелия и «Пандектах» Нико- на Черногорца. Значение слова *промузгъ / *промузга выводится на основе предположения о родстве праславянских корней *muzg- ...
Добавлено: 15 мая 2024 г.
Берестяные грамоты из раскопок 2022 г. в Великом Новгороде и Старой Руссе
Гиппиус А. А., Вопросы языкознания 2023 № 5 С. 7–28
Статья содержит предварительную публикацию двенадцати берестяных грамот XII —  первой половины XV в., найденных в археологическом сезоне 2022 г. в Великом Новгороде  (№ 1146–1157) и Старой Руссе (№ 53, 54), а также грамот № 1142 и 1143 из раскопок 2021 г., не вошедших в предыдущую публикацию. ...
Добавлено: 13 февраля 2024 г.
  • О ВЫШКЕ
  • Цифры и факты
  • Руководство и структура
  • Устойчивое развитие в НИУ ВШЭ
  • Преподаватели и сотрудники
  • Корпуса и общежития
  • Закупки
  • Обращения граждан в НИУ ВШЭ
  • Фонд целевого капитала
  • Противодействие коррупции
  • Сведения о доходах, расходах, об имуществе и обязательствах имущественного характера
  • Сведения об образовательной организации
  • Людям с ограниченными возможностями здоровья
  • Единая платежная страница
  • Работа в Вышке
  • ОБРАЗОВАНИЕ
  • Лицей
  • Довузовская подготовка
  • Олимпиады
  • Прием в бакалавриат
  • Вышка+
  • Прием в магистратуру
  • Аспирантура
  • Дополнительное образование
  • Центр развития карьеры
  • Бизнес-инкубатор ВШЭ
  • Образовательные партнерства
  • Обратная связь и взаимодействие с получателями услуг
  • НАУКА
  • Научные подразделения
  • Исследовательские проекты
  • Мониторинги
  • Диссертационные советы
  • Защиты диссертаций
  • Академическое развитие
  • Конкурсы и гранты
  • Внешние научно-информационные ресурсы
  • РЕСУРСЫ
  • Библиотека
  • Издательский дом ВШЭ
  • Книжный магазин «БукВышка»
  • Типография
  • Медиацентр
  • Журналы ВШЭ
  • Публикации
  • http://www.minobrnauki.gov.ru/
    Министерство науки и высшего образования РФ
  • https://edu.gov.ru/
    Министерство просвещения РФ
  • http://www.edu.ru
    Федеральный портал «Российское образование»
  • https://elearning.hse.ru/mooc
    Массовые открытые онлайн-курсы
  • НИУ ВШЭ1993–2026
  • Адреса и контакты
  • Условия использования материалов
  • Политика конфиденциальности
  • Правила применения рекомендательных технологий в НИУ ВШЭ
  • Карта сайта
Редактору