Создание лексико-грамматической базы для старорусского корпуса НКРЯ

О. Н. Ляшевская; Т. С. Гаврилова; Т. А. Шалганова

?

Создание лексико-грамматической базы для старорусского корпуса НКРЯ

С. 229–234.

Lyashevskaya O., Гаврилова Т. С., Шалганова Т. А.

Our task was to create an automatic lexico-grammatical tagger of the Middle Russian texts (1400–1700) included in the Russian National Corpus (RNC). Our approach is based on creating an electronic dictionary of Old Russian and building a module to handle spelling inconsistency. In the absence of open electronic resources for Middle Russian morphology, an electronic dictionary of Church Slavonic was expanded and adapted to Middle Russian.

Language: Russian

Full text

Keywords: корпусная лингвистика НКРЯ древнерусский язык лексико-грамматическая разметка морфологический таггер грамматический словарь именное словоизменение глагольное словоизменение

In book

El’Manuscript–2016. Raš ytinis palikimas ir skaitmeninė s 6.2. technologijos: VI tarptautinė mokslinė konferencija, Vilnius, 2016 m. rugpjū č io 22–28 d.

Ижевск, В: Lietuvos mokslo taryba, 2016.

Динамика восприятия площадей в пространстве города носителями русского языка (сравнительный анализ по данным НКРЯ)

Belova P., В кн.: Актуальные вопросы лингвистики и литературоведения: сборник научных статей по материалам международной научной конференции памяти доктора филологических наук, профессора Л.А. Араевой (6–8 февраля 2025).: Кемеровский государственный университет, 2025. С. 155–160.

This article contains research results on the dynamics of squares’ perception in the city space in the Russian language picture of the world over time, starting from the second half of the XXth century to the present. Turning to the subcorpus of literary texts of the second half of the XXth century and the XXIst ...

Added: February 4, 2026

Языковая концептуализация пространства в художественном тексте (по данным НКРЯ)

Belova P., В кн.: Когнитивные исследования языка. Вып. №1 (62): материалы Международной научной конференции по когнитивной лингвистике. 5-7 июня 2025. Ч. 2Ч. 2. Кн. 62. Вып. 1.: ТюмГУ-Press, 2025. С. 56–60.

Данная статья представляет результаты изучения содержания концепта ПРОСТРАНСТВО в русском языковом сознании на материале художественных прозаических текстов разных жанров, созданных во второй половине XX века и в XXI веке и представленных в НКРЯ. Анализ проведен с учетом таких культурно-языковых фильтров, как пропозициональные установки, предметно-понятийные корреляции и метафорические преобразования. ...

Added: February 4, 2026

Nominative Object

Ronko R., Wiemer B., , in: Encyclopedia of Slavic Languages and Linguistics Online.: Brill, 2020.

The nominative object describes a clause type in which the object of a transitive verb takes nominative morphology, and this coding is not conditioned by voice operations. It is a salient property in regions in which Slavic varieties have been in contact with Finnic- and/or Baltic-speaking population, i.e., in the eastern part of the Circum-Baltic ...

Added: December 19, 2025

Два подхода к дифференциации терминов миграционных исследований (по данным корпусного анализа)

Permyakova T. M., Smirnova E. A., Новые исследования Тувы 2025 № 4 С. 122–136

The article presents a quantitative and qualitative analysis of English-language terms related to the study of migration.The sources used were research articles in the social sciences published between 2018 and 2020 in international first-quartile journals indexed in the Scopus database. The corpus-linguistic study addresses two objectives: to identify functioning systems of terms in scientific articles ...

Added: December 1, 2025

Вариативность годов vs. лет в русских говорах: корпусное исследование

Zemicheva S., Moroz G., Naccarato C., Вопросы языкознания 2025 № 6 С. 7–34

Наличие супплетивной формы лет в парадигме существительного год отличает русский язык от других восточнославянских. При этом в русских говорах вместо лет может использоваться вариант годов. Данные панхронического подкорпуса НКРЯ показывают, что форма годов, зафиксированная впервые в XV в., на всем протяжении истории русского языка была периферийной, в XVII–XVIII вв. использовалась преимущественно в нехудожественных текстах, а в ...

Added: November 12, 2025

The Twofold Nature of Old East Slavic Iže

Anna A. Fitiskina, Russian linguistics 2025 Vol. 49 Article 4

This paper aims to demonstrate that the Old East Slavic pronoun iže, traditionally considered a loanword from Old Church Slavonic and a marker of literacy, was in fact also widely used in secular texts of the earliest period and that its usage there differed considerably from that found in Old East Slavic church-oriented literature. The ...

Added: September 26, 2025

Берестяные грамоты из раскопок 2024 г. I. Великий Новгород, Троицкий раскоп

Gippius A., Вопросы языкознания 2025 № 4 С. 7–41

This article contains a preliminary publication of 30 birchbark letters found during the 2024 archaeological season at the Troitsky excavation in Veliky Novgorod. The vast majority of the published texts date back to the 12th century. Most important in historical and philological terms are the following items: a letter mentioning a military campaign and related ...

Added: September 21, 2025

Анализ тематики повседневных разговоров: экспертный подход и автоматические методы

Sherstinova T., Вепринцева Д. А., Человек: образ и сущность. Гуманитарные аспекты 2025 № 2(62) С. 89–108

В статье рассматриваются три разных подхода к изучению тематики повседневных разговоров: экспертная тематическая разметка и два автоматических метода (тематическое моделирование и кластеризация). Материалом для исследования послужили расшифровки русской устной повседневной речи из корпуса ОРД, подготовленные на основе звукозаписей спонтанных разговоров, выполненных в естественных коммуникативных ситуациях (дома, на работе, в учебном заведении, в магазине, в поликлинике ...

Added: September 3, 2025

Русская и зарубежная филология в диалоге культур : материалы Всероссийской научно-практической конференции с международным участием (г. Ростов-на-Дону, 19–21 октября 2023 г.)

Издательство Южного федерального университета, 2024.

В сборнике представлены статьи, посвящённые актуальным вопросам лингвистики, литературоведения, цифровой филологии и лингвистики, журналистики и медиакоммуникаций, перевода и переводоведения. ...

Added: July 31, 2025

Переписка Н. С. Хрущева и Ф. Кастро периода Карибского кризиса: опыт компьютеризованного анализа

Герцен А. С., В кн.: Четвёртая зимняя школа по гуманитарной информатике.: Балтийский федеральный университет им. Иммануила Канта, 2020. С. 92–97.

The article analyzes the 1st Secretary of the Central Committee of the CPSU and Chairman of the Council of Ministers of the USSR N. S. Khrushchev and the leader of the Cuban revolution F. Castro Ruz’s letters written in the period from October 26 to 31, 1962 on the topic of the Caribbean crisis and ...

Added: July 15, 2025

An overview of morphosyntactic variation in the speech of Russian-Chuvash bilinguals: number, gender, case assignment and preposition drop

Grishanova A., Russian linguistics 2025 Vol. 49 Article 10

The purpose of this study is to present a summary of morphosyntactic variation and a detailed analysis of the phenomenon of preposition drop in the Russian speech of Chuvash bilinguals. Specifically, I investigate what underlying factors might condition the variation. I conduct a qualitative analysis of the data extracted from the corpus of Russian spoken ...

Added: July 10, 2025

Русский язык в условиях контактирования: тюркско-русское языковое взаимодействие. Часть 1. Социолингвистическое и корпусное исследование

Резанова З. И., Artemenko E., Диброва В. С. et al., Томск: Издательство Томского государственного университета, 2024.

В монографии представлены собственно лингвистические, социолингвистические и психолингвистические аспекты взаимодействия русского и трех тюркских языков – шорского, хакасского, татарского (сибирского варианта). Охарактеризованы варианты влияния тюркских языков на речевую практику и когнитивные процессы порождения и восприятия речи русскоязычными билингвами. Представлены методики сбора данных, их обработки при формировании социолингвистической базы данных и морфологически размеченного бимодального корпуса русской устной речи билингвов, ...

Added: April 7, 2025

О национальном корпусе русского языка

Rakhilina E. V., Вестник Российской академии наук 2024 Т. 94 № 9 С. 795–803

Статья посвящена проекту создания Национального корпуса русского языка (НКРЯ) – мощной справочно-информационной системы по русскому языку, которая была разработана консорциумом организаций РАН с участием компании “Яндекс”. Описаны история создания Корпуса, основной его функционал и пути совершенствования, а также наиболее технологичные подкорпуса – поэтический, параллельный, мультимедийный; приведены примеры их работы. Особое внимание уделено последним разработкам, которые ...

Added: February 25, 2025

ИСПОЛЬЗОВАНИЕ МЕТОДОВ КОМПЬЮТЕРНОЙ ЛИНГВИСТИКИ ДЛЯ АНАЛИЗА ЛИТЕРАТУРЫХ ТЕКСТОВ

Аванесян Н. Л., Fokina A., Chepovskiy A., В кн.: Инжиниринг предприятий и управление знаниями (ИП&УЗ-2024) : сборник научных трудов XXVII Российской научной конференции. 28–29 ноября 2024 г. / под науч. ред. Ю. Ф. Тельнова. – Москва : ФГБОУ ВО «РЭУ им. Г. В. Плеханова», 2024.: М.: ФГБОУ ВО "РЭУ им. Г.В. Плеханова", 2024. С. 15–18.

Статья посвящена применению математических методов корпусного анализа для исследований литературных текстов. На примере созданных корпусов продемонстрированы возможности применения метода анализа соответствий и анализ коэффициентов попарной ранговой корреляции для сравнения частотных характеристик текстов различных подкорпусов. Описанные методики дают коррелированные результаты. Они могут использоваться как для лингвистических исследований, так и создания корректных обучающих текстовых наборов для задач искусственного интеллекта. ...

Added: December 19, 2024

Корпусная лингвистика на современном этапе

Plungian V., Вестник Российской академии наук 2024 Т. 94 № 9 С. 787–794

Даётся общее представление о корпусной лингвистике, её истории, методах и влиянии на современные представления об изучении языка, которое обычно обозначается как “корпусная революция”. ...

Added: December 16, 2024

Толк и толки: диахронический портрет имени с семантикой ментальной сферы

Рыжаченков И. И., Труды института русского языка им. В.В. Виноградова 2024 № 4(42) С. 102–118

В статье исследуется процесс диахронического развития полисемии русского толк, привлёкшего наше внимание своим нетривиальным распределением лексем внутри числовой парадигмы. Несмотря на её формальную двучленность, в современном русском языке толк и толки образуют два семантически несвязанных класса конструкций. Для выявления отношений семантической производности в структуре многозначности толк семантические деривации были рассмотрены в диахронической перспективе на материале ...

Added: December 8, 2024

АНАЛИЗ КОРПУСА ПОЭТИЧЕСКИХ ТЕКСТОВ НА ПЛАТФОРМЕ TXM

Fokina A., Chepovskiy A., В кн.: Труды международной конференции «Корпусная лингвистика — 2023», 21–23 июня 2023 г., Санкт-Петербург.: СПб.: Издательство Санкт-Петербургского университета, 2024. С. 224–231.

The paper considers the results of correspondence analysis based on the TXM corpus analysis platform. The corpus of poetry of the Silver Age was created and studies, it includes subcorpuses of the main trends, authors of these trends and ages when the poems were written. This helps to analyze the influence of historical events of ...

Added: December 2, 2024

Голос эпохи: лингвостатистические показатели прямой речи в русском рассказе XX века

Kirina M., Лукьянчикова А. С., В кн.: Восьмая Калининградская школа по гуманитарной информатике : сборник докладов. Калининград, 12–14 декабря 2024 года [Электронный ресурс]: научное электронное издание.: Калининград: Смартбукс, 2024. С. 69–73.

В статье рассматриваются лингвостатистические показатели прямой речи литературных персонажей в динамике по историческим периодам. Сопоставляются лексические и морфологические особенности прямой речи и устной речи, представленной в Устном корпусе в составе Национального корпуса русского языка. Материалом исследования стала выборка из 648 рассказов, включенных в Корпус русского рассказа XX века. Объем прямой речи составил 529289 словоупотреблений. На ...

Added: November 29, 2024