К задаче автоматической лексико-грамматической разметки старорусского корпуса XV-XVII вв.

Т. С. Гаврилова; Т. А. Шалганова; О. Н. Ляшевская

?

К задаче автоматической лексико-грамматической разметки старорусского корпуса XV-XVII вв.

Вестник Православного Свято-Тихоновского гуманитарного университета. Серия 3: Филология. 2016. Т. 47. № 2. С. 7–25.

Гаврилова Т. С., Шалганова Т. А., Ляшевская О. Н.

В работе рассматриваются два подхода к разработке автоматической аннотации корпуса старорусских текстов XV–XVII вв., включенных в Национальный корпус русского языка (НКРЯ). Лексико-грамматическая аннотация состоит в определении части речи, грамматических характеристик и начальной формы слова (леммы) для каждой словоформы корпуса. Язык старорусской письменности совмещает в себе, с одной стороны, черты древнерусского словоизменения, включая формы аориста и имперфекта глагола, формы двойственного числа и другие архаичные формы, а с другой стороны — черты современной русской словоизменительной морфологии. Подобное смешение проявляется и в лексическом составе. Кроме того, в текстах присутствуют церковнославянские, а также диалектные варианты. Если добавить к этому отсутствие устойчивой орфографии, становится понятна вся сложность задачи, связанной с аннотацией старорусских текстов. Первый из рассматриваемых подходов основан на построении электронного словаря старорусского языка и создании модуля обработки орфографической вариативности. В отсутствие открытых электронных ресурсов, документирующих морфологию старорусского периода, за основу был взят электронный словарь церковнославянского языка, разработанный А. Е. Поляковым на базе церковнославянского корпуса НКРЯ. Мы описываем процедуры, связанные с адаптацией именной и глагольной морфологии к данным старорусского корпуса. Второй подход связан с привлечением программы автоматической аннотации текстов русского языка XIX–XX вв., дополненной модулем обработки орфографической вариативности, с одной стороны, и корпуса лексико-грамматических разборов древнерусских текстов, полученных из Исторического корпуса НКРЯ, — с другой. Оба подхода строятся на принципе «широкого покрытия»: автоматический разметчик должен порождать множество разборов таким образом, чтобы хотя бы один разбор был правильным.

В статье приводятся результаты экспертизы качества разметки, основанной на указанных подходах, а также обсуждаются возможные пути развития инструментов лексико-грамматической разметки старорусских текстов.

Научное направление: Филология и лингвистика

Приоритетные направления: гуманитарные науки

Язык: русский

Полный текст

Текст на другом сайте

Ключевые слова: Национальный корпус русского языка древнерусский язык Russian National Corpus лексико-грамматическая разметка morphological analysis Middle Russian lexico-grammatical tagging grammatical dictionary spelling variation verb inflection старорусская письменность старорусский корпус морфологический таггер грамматический словарь именное словоизменение глагольное словоизменение

Местоимения с фокусным антецедентом в русском языке: кореферентные и связанные употребления в корпусах

Тискин Д. Б., Компьютерная лингвистика и интеллектуальные технологии 2026 No. 24 P. 656–665

D:/Output/2025/Dialogue_after_review.pdfНесмотря на значительный интерес к факторам, определяющим выбор между личными и возвратными местоимениями с антецедентом в русском языке, роль отношения к антецеденту (кореферентность или связывание) остаётся слабо изученной, а приемлемость отдельных примеров вызывает споры. В настоящей работе на материале веб-корпусов (Araneum и ГИКРЯ) исследуется влияние, оказываемое на интерпретацию местоимения как кореферентного фокусному антецеденту или связанного ...

Добавлено: 19 июля 2026 г.

Не только ἐπιχώρια διδάγματα: пайдейя Эпаминонда

Можайский А. Ю., Schole. Философское антиковедение и классическая традиция 2026 Т. 20 № 2 С. 1105–1116

В настоящей статье исследуется образование Эпаминонда - знаменитого фиванского полководца и государственного деятеля. В античную эпоху он был широко известен благодаря образованности и философскому авторитету. В исследовании показано, что становление Эпаминонда было обусловлено сложным комплексом местных традиций обучения, которые Павсаний характеризует как «местные учения» (ἐπιχώρια διδάγματα). В то же время образование Эпаминонда отличалось от подготовки ...

Добавлено: 17 июля 2026 г.

Английский язык для студентов педагогических вузов. = English for Pre-Service Teachers (B2-C1)

Стогниева О. Н., Новикова В. П., М.: Флинта, 2026.

Инновационный курс английского языка для специальных целей для студентов педагогических вузов предлагает погружение в актуальный образовательный дискурс: от вопросов воспитания и когнитивного развития детей и подростков до переосмысления роли школы в цифровую эпоху. Содержательной основой курса выступают аутентичные мультимодальные материалы, позволяющие анализировать глобальные тренды современных образовательных систем и подходов. Издание идеально подходит вузам, стремящимся подготовить ...

Добавлено: 16 июля 2026 г.

Вклад Нгуен Тонг Куая в развитие вьетнамской поэзии (Новый взгляд на творчество поэта XVIII века)

Бритов И. В., Вьетнамские исследования 2026 Т. 10 № 2 С. 87–98

В статье анализируется творчество поэта XVIII в. Нгуен Тонг Куая. Обращается внимание на то, что во Вьетнаме только после провозглашения политики обновления стали активно изучать и высоко оценивать его литературное наследие, хотя еще при жизни поэта современники давали исключительно положительные отзывы о его стихах. Выявляются причины, по которым долгое время Нгуен Тонг Куай находился в ...

Добавлено: 16 июля 2026 г.

Комитативно-аддитивная полисемия в пуровском диалекте лесного ненецкого языка

Козлов А. А., Лапшина К. М., Вопросы языкознания 2026 № 4 С. 132–146

В статье на материале полевых данных рассматриваются две функции суффикса -samae в пуровском диалекте лесного ненецкого языка: комитативная (выражение совместности: ‘с X-ом’) и скалярно-аддитивная (показатель со значением ‘даже X’). Комитативное употребление показателя -samae характерно прежде всего для маркирования неодушевленного спутника, однако его использование возможно и с другими типами участников — в частности, когда они образуют ...

Добавлено: 13 июля 2026 г.

Prompt Design for GPT-4 Assessments of EFL Student Reports

Стогниева О. Н., Murashova N., Journal of Asia TEFL 2026 Vol. 23 No. 2 P. 490–505

Добавлено: 12 июля 2026 г.

International Academic Conference. Proceedings of the Scientific Forum “Modern Science: Theory and Practice” (April 22, 2026). Belgrade, Serbia. Part 3.

Scientific publishing house Infinity, 2026.

Добавлено: 10 июля 2026 г.

Этот смутный объект внимания: "реальные предметы" и гаптический опыт в рассказах В. Вулф

Шулятьева Д. В., Новое литературное обозрение 2026 № 199 С. 128–140

В статье рассмотрена гаптическая образность в поэтике В. Вулф на примере трех ее рассказов («Пятно на стене», «Женщина в зеркале», «Реальные предметы»), в центре которых оказываются предметы, устанавливающие обновленные отношения с героями. С опорой на теорию гаптической визуальности и на теорию вещи описаны трансформации, которые происходят с предметами, и переживание, которое открывается герою и нарратору при соприкосновении с ними, ...

Добавлено: 10 июля 2026 г.

Two ga-morphemes in Rutul: Accidental similarity or a case of polygrammaticalization?

Майсак Т. А., Word Structure 2026 Vol. 19 No. 2-3 P. 338–367

Добавлено: 9 июля 2026 г.

Towards a typology of imperative interjections: ‘Take it!’ in the Caucasus

Майсак Т. А., Transactions of the Philological Society 2026 Vol. 124 No. 2 P. 386–427

Добавлено: 9 июля 2026 г.

Light Verb Constructions from a Cross-Linguistic Perspective

Berlin, Boston: De Gruyter, 2025.

Добавлено: 9 июля 2026 г.

The Semiotic Intensity Approach: A Scoping Review of Amplification and Attenuation Mechanisms in Multimodal Media Discourse

Инь Ц., Terra Linguistica 2026 Vol. 17 No. 2 P. 152–168

Добавлено: 8 июля 2026 г.

Комитет цензуры иностранной как институт культурного трансфера, или судьба итальянских книг и переводов с итальянского в цензурных документах 1830–1850-х годов

Бодрова А. С., Гуськов С. Н., Studi Slavistici 2026 Т. 23 № 1 С. 197–212

Статья посвящена анализу иностранной цензуры как института культурного и книжного трансфера в Российской империи и ее роли в рецепции итальянской литературы в 1830–1850-е годы. На материале архивных документов авторы показывают, что цензурные решения определялись не только нормами Устава 1828 года, но и другими факторами — политической конъюнктурой, языком перевода, социальным статусом переводчиков и личностными особенностями ...

Добавлено: 5 июля 2026 г.

Деепричастия в русском языке XVIIв.: переходный период в истории формирования их грамматического значения

Ермолова М. В., Russian Linguistics 2026 Т. 50 Статья 14

В статье анализируется функционирование деепричастий в русском языке XVII в. На основе анализа контекстов, отсутствующих в современном русском языке, делаются выводы о том, что в XVII в. деепричастие теряло абсолютное временное значение, ко торое имело некогда, приобретая относительное значение в зависимости от времени главного сказуемого, но оставалось при этом предикатом еще формальнонезависимой клаузы. Закрепление за ...

Добавлено: 4 июля 2026 г.

Семантика необратимости в медиадискурсе ФРГ: эсхатологические коды и реакция аудитории в условиях кризиса

Москвина Ж. О., Вестник Российского университета дружбы народов. Серия: Литературоведение, журналистика 2026 Т. 31 № 2 С. 398–408

Исследованы семантические и когнитивные механизмы функционирования лексемы «необратимость» (Unumkehrbarkeit), изучен современный немецкий медиа-дискурс, где освещается кризис германо-российских отношений. В основе исследования лежит гипотеза о том, что апелляция к семантике необратимости в СМИ служит ритори-ческой стратегией, призванной усилить восприятие происходящих изменений как окон-чательных. Однако, как демонстрирует проведенный анализ, данная стратегия вступает в противоречие с глубинными структурами ...

Добавлено: 3 июля 2026 г.

Men and women are from the same planet Gender similarities in perspective-taking abilities

Imbault C., Слюсарь Н. А., Иваненко А. А. и др., The Mental Lexicon 2026 P. 1–23

Добавлено: 2 июля 2026 г.

Об одном из путей грамматикализации страдательных причастий прошедшего времени в славянских языках (на материале польского и русского языков)

Ермолова М. В., Вопросы языкознания 2026 № 4 С. 73–85

В статье сопоставляются процессы эволюции страдательного причастия прошедшего времени (СППВ) в неопределенно-личную финитную форму прошедшего времени в польском и старорусском языках. Рассматриваются типы контекстов СППВ, зафиксированные в истории русского языка, и типы польских употреблений с СППВ, которые связаны с формированием неопределенно-личной формы на -no/-to. В результате анализа материала обоих языков можно сделать вывод о том, ...

Добавлено: 2 июля 2026 г.

ПИНДАР. ПИФИЙСКАЯ ОДА 9.33–43: О ЧЕМ ГОВОРИТ ХИРОН?

Ахунова О. Л., Индоевропейское языкознание и классическая филология 2026 Т. 30 № 1 С. 108–119

В Девятой Пифийской оде Пиндара есть сцена, которая привлекает особое внимание комменататоров и исследователей не только потому, что любовно-эротическая тема в целом для Пиндара нехарактерна, но и потому, что в этой сцене ни вопрос, с которым Аполлон обращается к Хирону, ни ответ, который дает ему Хирон, не поддаются однозначному толкованию. Намеревается ли Аполлон совершить открытое насилие над ...

Добавлено: 1 июля 2026 г.

Concepts of searching and finding: principles of colexification in a typological perspective

Резникова Т. И., Ekaterina Rakhilina, Рыжова Д. А. и др., Lingua 2026 Vol. 341 Article 104187

Добавлено: 1 июля 2026 г.

Language policy in multiethnic countries: Current trends

Бергельсон М. Б., Grenoble L., Russian Journal of Linguistics 2026 Vol. 30 No. 2 P. 275–309

Добавлено: 30 июня 2026 г.

LANGUAGE POLICY IN MULTIETHNIC COUNTRIES

-, 2026.

Добавлено: 30 июня 2026 г.

Система синтаксических инвариантов текстовой деятельности: статистические дескрипторы, семантическая структура и диагностические профили

Кудрявцева Е. И., / РЦИС. Серия № 0148-756-286. 2026.

Содержанием работы является система идентификации четырех типов письменно-речевых структур. Совокупность 11 расчетных параметров, статистических эталонов и семантических характеристик позволяют идентифицировать структуру текста как результат определенной когнитивной схемы (сцена, событие, история, оценка). Метод верифицирован на репрезентативной выборке (N=3900+) и базируется на выявлении критического порогового значения коэффициента подчиненности. Также математически верифицированы переходы между типами: от атомарной фиксации объекта ...

Добавлено: 2 июня 2026 г.

Почему растущие доходы не делают людей счастливее: эмоциональное объяснение парадокса Истерлина (Why Growing Incomes Do Not Make People Happier: an Emotional Explanation of the Easterlin Paradox)

Ворчик А. Д., / SSRN. Серия Social Science Research Network "Social Science Research Network". 2026.

Эта работа посвящена теоретическому объяснению парадокса Истерлина, согласно которому долгосрочный экономический рост не приводит к росту среднего уровня счастья людей. Под счастьем мы понимаем интенсивность эмоций, которые люди испытывают, когда сравнивают свой новый доход с ожидаемым либо целевой - с изначальным. В первом случае мы имеем дело с реактивным подходом к росту, тогда как во втором ...

Добавлено: 31 мая 2026 г.

Школьный литературный канон эмиграции 1918–1939 гг.

Стрижкова Д. А., / Институт русской литературы (Пушкинский Дом) РАН. Серия B001 "Репозиторий открытых данных по русской литературе и фольклору". 2026.

В базе данных представлена роспись русскоязычных литературных произведений и отрывков, напечатанных в учебниках по словесности, хрестоматиях, книгах для чтения, сборниках стихотворений и рассказов, выходивших во Франции, Германии, Латвии, Эстонии, Болгарии, Сербии в период первой волны русской эмиграции с 1918 по 1939 гг. Датасет представляет интерес для исследователей школьного литературного канона, эмиграции и детского чтения ...

Добавлено: 22 апреля 2026 г.