• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • A
  • A
  • A
  • A
  • A
Обычная версия сайта
  • RU
  • EN
  • Национальный исследовательский университет «Высшая школа экономики»
  • Публикации ВШЭ
  • Статьи
  • К задаче автоматической лексико-грамматической разметки старорусского корпуса XV-XVII вв.
  • RU
  • EN
Расширенный поиск
Высшая школа экономики
Национальный исследовательский университет
Приоритетные направления
  • бизнес-информатика
  • государственное и муниципальное управление
  • гуманитарные науки
  • инженерные науки
  • компьютерно-математическое
  • математика
  • менеджмент
  • право
  • социология
  • экономика
по году
  • 2027
  • 2026
  • 2025
  • 2024
  • 2023
  • 2022
  • 2021
  • 2020
  • 2019
  • 2018
  • 2017
  • 2016
  • 2015
  • 2014
  • 2013
  • 2012
  • 2011
  • 2010
  • 2009
  • 2008
  • 2007
  • 2006
  • 2005
  • 2004
  • 2003
  • 2002
  • 2001
  • 2000
  • 1999
  • 1998
  • 1997
  • 1996
  • 1995
  • 1994
  • 1993
  • 1992
  • 1991
  • 1990
  • 1989
  • 1988
  • 1987
  • 1986
  • 1985
  • 1984
  • 1983
  • 1982
  • 1981
  • 1980
  • 1979
  • 1978
  • 1977
  • 1976
  • 1975
  • 1974
  • 1973
  • 1972
  • 1971
  • 1970
  • 1969
  • 1968
  • 1967
  • 1966
  • 1965
  • 1964
  • 1963
  • 1958
  • еще
Тематика
Новости
15 мая 2026 г.
В НИУ ВШЭ разрабатывают нейросеть для сферы науки и инноваций
Исследователи НИУ ВШЭ учат большие языковые модели понимать русскоязычную научную терминологию, увеличивая при этом их энергоэффективность. Адаптированная модель работает в 2,7 раза быстрее и требует на 73% меньше памяти, чем исходная открытая модель, что позволяет запускать ее на более доступном оборудовании. Программа прошла государственную регистрацию.
15 мая 2026 г.
Стартовал совместный спецпроект бренд-медиа Вышки IQ Media и iFORA ИСИЭЗ
В мае 2026 года стартовал научно-популярный проект «Искусственный интеллект: технологии, данные и будущее», который стал результатом работы двух команд — проекта iFORA Института статистических исследований и экономики знаний НИУ ВШЭ и редакции бренд-медиа IQMedia. Медийно-аналитический спецпроект посвящен современному развитию искусственного интеллекта и аналитике больших данных.
14 мая 2026 г.
<a>Ученые ФКН ВШЭ представили работы в сфере ИИ и биоинформатики на ICLR 2026
Ученые Института искусственного интеллекта и цифровых наук факультета компьютерных наук ВШЭи студенты трека «ИИ360: Инженерия искусственного интеллекта» бакалаврской программы «Прикладная математика и информатика» приняли участие в международной конференции ICLR — одном из самых авторитетных мировых форумов в области машинного обучения и представления данных. В этом году конференция состоялась в Рио-де-Жанейро (Бразилия).

 

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!

Публикации
  • Книги
  • Статьи
  • Главы в книгах
  • Препринты
  • Верификация публикаций
  • Расширенный поиск
  • Правила использования материалов
  • Наука в ВШЭ

?

К задаче автоматической лексико-грамматической разметки старорусского корпуса XV-XVII вв.

Вестник Православного Свято-Тихоновского гуманитарного университета. Серия 3: Филология. 2016. Т. 47. № 2. С. 7–25.
Гаврилова Т. С., Шалганова Т. А., Ляшевская О. Н.

В работе рассматриваются два подхода к разработке автоматической аннотации корпуса старорусских текстов XV–XVII вв., включенных в Национальный корпус русского языка (НКРЯ). Лексико-грамматическая аннотация состоит в определении части речи, грамматических характеристик и начальной формы слова (леммы) для каждой словоформы корпуса. Язык старорусской письменности совмещает в себе, с одной стороны, черты древнерусского словоизменения, включая формы аориста и имперфекта глагола, формы двойственного числа и другие архаичные формы, а с другой стороны — черты современной русской словоизменительной морфологии. Подобное смешение проявляется и в лексическом составе. Кроме того, в текстах присутствуют церковнославянские, а также диалектные варианты. Если добавить к этому отсутствие устойчивой орфографии, становится понятна вся сложность задачи, связанной с аннотацией старорусских текстов. Первый из рассматриваемых подходов основан на построении электронного словаря старорусского языка и создании модуля обработки орфографической вариативности. В отсутствие открытых электронных ресурсов, документирующих морфологию старорусского периода, за основу был взят электронный словарь церковнославянского языка, разработанный А. Е. Поляковым на базе церковнославянского корпуса НКРЯ. Мы описываем процедуры, связанные с адаптацией именной и глагольной морфологии к данным старорусского корпуса. Второй подход связан с привлечением программы автоматической аннотации текстов русского языка XIX–XX вв., дополненной модулем обработки орфографической вариативности, с одной стороны, и корпуса лексико-грамматических разборов древнерусских текстов, полученных из Исторического корпуса НКРЯ, — с другой. Оба подхода строятся на принципе «широкого покрытия»: автоматический разметчик должен порождать множество разборов таким образом, чтобы хотя бы один разбор был правильным.

 

В статье приводятся результаты экспертизы качества разметки, основанной на указанных подходах, а также обсуждаются возможные пути развития инструментов лексико-грамматической разметки старорусских текстов.

Научное направление: Филология и лингвистика
Приоритетные направления: гуманитарные науки
Язык: русский
Полный текст
Текст на другом сайте
Ключевые слова: Национальный корпус русского языкадревнерусский языкRussian National Corpusлексико-грамматическая разметкаmorphological analysisMiddle Russianlexico-grammatical tagginggrammatical dictionaryspelling variationverb inflectionстарорусская письменностьстарорусский корпусморфологический таггерграмматический словарьименное словоизменениеглагольное словоизменение
Похожие публикации
КОГНИТИВНО-АССОЦИАТИВНОЕ ПОЛЕ ОНИМОВ САНКТ-ПЕТЕРБУРГА И ВЕНЫ
Зелинская Ю. Ю., Когнитивные исследования языка 2025 № 4(65) С. 180–186
Статья посвящена исследованию онима как когнитивного стимула, способствующего декодированию языка городского пространства двух этносов. Основу исследования составляет анализ результатов ономастического ассоциативного эксперимента, целью которого было выявление доминирующих типов ассоциативных реакций на антропонимы, ойкодонимы, годонимы и ресторонимы Санкт-Петербурга и Вены. Выявленные реакции отображают сформированный ментальный ономастикон респондентов. ...
Добавлено: 16 мая 2026 г.
Лично-числовая асимметрия: согласование пассивных миративов в казымском диалекте хантыйского языка
Старченко А. М., Толдова С. Ю., Типология морфосинтаксических параметров 2023 Т. 6 № 1 С. 130–148
Работа рассматривает ранее не засвидетельствованную модель расщеплённого согласования в парадигме миратива в казымском диалекте хантыйского языка. Расщеплённое согласование выявляется при сравнении активной и пассивной миративных конструкций, а также в ограниченном наборе употреблений нефинитных форм и выражается в том, что в пассивном залоге, в отличие от активного, 3 лицо немаркировано — наблюдается согласование только по числу. ...
Добавлено: 14 мая 2026 г.
Глаголы перемещения веществ в славянских языках
Федоров Д. Г., Jezikoslovni Zapiski 2026 № 32(1) С. 23–52
В статье описываются глаголы перемещения жидких и сухих веществ в славянских языках. В ходе работы рассматривается, как славянские языки лексикализуют различные ситуации в рамках семантического поля перемещения веществ, и выделяются параметры которые определяют эту лексикализацию (напр., тип вещества, интенсивность и квантованность потока, каузация). Смежные грамматические явления, такие как мена диатезы и лабильность, также играют роль ...
Добавлено: 13 мая 2026 г.
Образ женщины сквозь года: диахронический анализ репрезентации женщин в российской агитационной рекламе
Габриелова Е. В., Максименко О. И., Социальные и гуманитарные науки на Дальнем Востоке 2026 Т. 23 № 1 С. 241–249
В статье представлен диахронический анализ репрезентации женщины в российской рекламе на материале агитационных плакатов 1917 - 1990 годов и социальных и мотивационных рекламных материалов 2000 - 2020 годов. Целью исследования является выявление эволюции вербальных и визуальных стратегий конструирования женского образа в контексте изменений социально-политической и культурной среды, в основу которых легла память поколений. В теоретической ...
Добавлено: 13 мая 2026 г.
Proceedings of the 9th Student Research Workshop associated with the International Conference Recent Advances in Natural Language Processing
Velichkov B., Nikolova-Koleva I., Slavcheva M., Shumen: INCOMA Ltd, 2025.
Добавлено: 12 мая 2026 г.
«Плоский мир» Т. Пратчетта глазами русскоязычного фандома
Кульков А. Н., Цветкова М. В., Вестник Томского государственного университета. Филология 2026 № 100 С. 158–173
Впервые делается попытка рассмотреть особенности фанфикшн как акта продуктивной рецепции, возникшего на основе цикла романов Терри Пратчетта о Плоском мире в России. Проведенный анализ показывает, что прежде всего авторы фанфиков стремятся передать стилистику и комическое начало оригинального цикла Пратчетта, вне зависимости от жанра и формата создаваемых ими произведений. Фикрайтеры наиболее часто обращаются к таким форматам, ...
Добавлено: 10 мая 2026 г.
Вселенная Достоевского
Першкина А. Н., М.: Альпина нон-фикшн, 2026.
Филолог Анастасия Першкина рассказывает о том, как писатель создавал свой мир, кем его населил, какие законы установил и почему этот мир так ярко действует на нас. Кроме того, вы узнаете, кто помогал Федору Михайловичу работать, как писатель связывал между собой произведения, что думали о его текстах современники и что же такое достоевщина. ...
Добавлено: 6 мая 2026 г.
The hypothesis of dependence of the lexical nature of mixed languages on the patterns of their emergence
Гриднева Е. М., Vestnik Tomskogo Gosudarstvennogo Universiteta, Filologiya 2026 No. 100 P. 38–52
Добавлено: 6 мая 2026 г.
Арест писателя Гюнтера Хофе на франкфуртской книжной ярмарке в 1963 г.: конкурирующие образы в медийном пространстве ГДР и ФРГ
Керимов Р. Э., Новое прошлое 2026 № 1 С. 148–162
Арест восточногерманского писателя и директора издательства Гюнтера Хофе на Франкфуртской книжной ярмарке 1963 г. стал уникальным эпизодом идеологической конфронтации между ГДР и ФРГ. Гюнтер Хофе в первую очередь известен своей документально-художественной трилогией про Вторую мировую войну, в которой он принимал активное участие как солдат вермахта. Анализ ареста писателя проводится на основе газетных материалов ГДР и ФРГ, а ...
Добавлено: 5 мая 2026 г.
Семантический ореол сакрального в четырехстопном амфибрахии: механизмы культурной памяти в поэзии Ольги Седаковой
Максимов И. В., Новый филологический вестник 2025 Т. 73 № 2 С. 187–196
Большинство исследований, посвященных метрической составляющей поэзии Ольги Седаковой, сосредоточены на формальных аспектах стихосложения и редко затрагивают содержательные возможности выбранных метров. Настоящая работа восполняет этот пробел, предлагая анализ единого сюжета четырехстопного амфибрахия, который прослеживается в русской поэзии от В.А. Жуковского до О.А. Седаковой. В центре исследования – филологический труд Седаковой «Четырехстопный амфибрахий или “Чудо” Пастернака в ...
Добавлено: 5 мая 2026 г.
Кубанская стела (Musée des Beaux Arts Grenoble, Collection égyptienne, inv. 1937, 1969, 3565)
Крол А. А., Кузнецов Д. А., Ладынин И. А., Восток. Афро-азиатские общества: история и современность 2026 Т. 1 С. 244–261
В публикации представлены новый перевод и комментарий текста Кубанской стелы Рамсеса II (Musée des beaux arts Grenoble, Collection égyptienne, inv. 1937, 1969, 3565). Данный памятник относится к началу его царствования (ок. 1287 г. до н.э.), был найден у развалин крепости Баки рядом с нубийским селением Кубан (отсюда название) и связан с организацией в этом районе добычи золота. ...
Добавлено: 5 мая 2026 г.
Царь Рамсес и Бактрия. Об одном мотиве позднеегипетского историописания
Ладынин И. А., Вестник древней истории 2024 Т. 84 № 1 С. 5–26
В статье рассматривается комплекс сообщений античной традиции, в которых идет речь о завоевании или о попытке завоевания египтянами Бактрии (Diod. I. 46–47; Tac. Ann. II. 60. 3; Strabo XVII. 1. 46), сообщение Манефона Севеннитского о широких завоеваниях царя Сетоса-Рамессеса (I) (Manetho. Frg. 50 = Ios. C.Ap. I. 15. § 98–102), а также текст иероглифической «Стелы ...
Добавлено: 5 мая 2026 г.
Школьный литературный канон эмиграции 1918–1939 гг.
Стрижкова Д. А., / Институт русской литературы (Пушкинский Дом) РАН. Серия B001 "Репозиторий открытых данных по русской литературе и фольклору". 2026.
В базе данных представлена роспись русскоязычных литературных произведений и отрывков, напечатанных в учебниках по словесности, хрестоматиях, книгах для чтения, сборниках стихотворений и рассказов, выходивших во Франции, Германии, Латвии, Эстонии, Болгарии, Сербии в период первой волны русской эмиграции с 1918 по 1939 гг. Датасет представляет интерес для исследователей школьного литературного канона, эмиграции и детского чтения ...
Добавлено: 22 апреля 2026 г.
Современная российская мультипликация как инструмент воспитания традиционных духовно-нравственных ценностей
Жигунов А. Ю., / Basic Research Programme. Серия HUM "Humanities". 2026. № 1.
В статье предпринимается попытка описания образовательного и воспитательного потенциала современной российской анимации в аспекте формирования представлений молодого поколения о традиционных российских ценностях. С опорой на медиа- и семиотический анализ, метод культурно-исторической интерпретации рассмотрены анимационные российские проекты, созданные с 2000 года по 2025 гг., находившиеся в прокате в эфире телевизионных каналов либо стриминговых сервисов с большой ...
Добавлено: 19 апреля 2026 г.
Nominative Object
Ронько Р. В., Wiemer B., , in: Encyclopedia of Slavic Languages and Linguistics Online.: Brill, 2020.
Добавлено: 19 декабря 2025 г.
Политическая аккомодация культурных различий в индустриально развитых обществах (Political Accommodation of Cultural Differences in Industrialized Societies)
Малахов В. С., Симон М. Е., Летняков Д. Э. и др., / SSRN. Серия Social Science Research Network "Social Science Research Network". 2020.
Понятие «политическая аккомодация» применительно к теории и практике управления культурным  разнообразием могло  бы  обогатить  российский  академический  словарь. Либерально-демократические  государства  изобрели  специфические  механизмы политической аккомодации культурных различий. Благодаря этим механизмам та часть населения  демократического  государства,  которая  не  готова  раствориться  в этнокультурном  большинстве,  более  или  менее  надежна  защищена.  Закон  не  только запрещает насильственную ассимиляцию, но и содержит ...
Добавлено: 26 сентября 2025 г.
The Twofold Nature of Old East Slavic Iže
Anna A. Fitiskina, Russian linguistics 2025 Vol. 49 Article 4
Добавлено: 26 сентября 2025 г.
Берестяные грамоты из раскопок 2024 г. I. Великий Новгород, Троицкий раскоп
Гиппиус А. А., Вопросы языкознания 2025 № 4 С. 7–41
Статья содержит предварительную публикацию 30 берестяных грамот XII–XIV вв., найденных в археологическом сезоне 2024 г. на Троицком раскопе в Великом Новгороде. Подавляющее большинство публикуемых текстов датируются XII в. В историческом и филологическом отношении выделяются: письмо с упоминанием военного похода и связанных с ним переговоров с князем (№ 1186), письмо о судебном деле с упоминанием ордалий — испытания водой (№ 1187), ...
Добавлено: 21 сентября 2025 г.
Национальная мощь современных государств: сравнительный анализ. Аналитический доклад
Мельвиль А. Ю., Каберник В. В., Миронюк М. Г. и др., / МГИМО МИД России. 2024.
Данный аналитический доклад является одним из результатов исследований в рамках консорциума НИУ ВШЭ и МГИМО. В нем прежде всего раскрыты вопросы концептуализации национальной мощи и сопутствующих категорий и дается обзор прецедентов. Далее рассматриваются вопросы операционализации предлагаемых нами компонентов национальной мощи. В следующих разделах доклада предлагается анализ вопросов методологии, используемой в докладе. На этой основе предложен ...
Добавлено: 19 сентября 2025 г.
BERT-like Models for Slavic Morpheme Segmentation
Morozov D., Astapenka L., Glazkova A. и др., , in: Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)Vol. 1: Long papers.: Association for Computational Linguistics, 2025. P. 6795–6815.
Алгоритмы автоматической сегментации морфем применимы в различных задачах, таких как построение токенизаторов и обучение языку. Для славянских языков разработка таких алгоритмов осложняется богатыми деривационными возможностями этих языков. Предыдущие исследования показали, что в среднем эти алгоритмы уже достигли экспертного уровня качества. Однако ключевой нерешенной проблемой является значительное снижение производительности при сегментации слов, содержащих корни, отсутствующие в ...
Добавлено: 17 июля 2025 г.
О национальном корпусе русского языка
Рахилина Е. В., Вестник Российской академии наук 2024 Т. 94 № 9 С. 795–803
Статья посвящена проекту создания Национального корпуса русского языка (НКРЯ) – мощной справочно-информационной системы по русскому языку, которая была разработана консорциумом организаций РАН с участием компании “Яндекс”. Описаны история создания Корпуса, основной его функционал и пути совершенствования, а также наиболее технологичные подкорпуса – поэтический, параллельный, мультимедийный; приведены примеры их работы. Особое внимание уделено последним разработкам, которые ...
Добавлено: 25 февраля 2025 г.
Explicit continuum scale format reduces the ceiling effect in self-report questionnaires comparing to Likert response format
Антипкина И. В., Ivanov A., Guzhelya D., / Series WP BRP "Basic research program". 2024.
Добавлено: 21 февраля 2025 г.
Automatic Morpheme Segmentation for Russian: Can an Algorithm Replace Experts?
Morozov D., Garipov T., Ляшевская О. Н. и др., Journal of Language and Education 2024 Vol. 10 No. 4 P. 71–84
Introduction: Numerous algorithms have been proposed for the task of automatic morpheme segmentation of Russian words. Due to the differences in task formulation and datasets utilized, comparing the quality of these algorithms is challenging. It is unclear whether the errors in the models are due to the ineffectiveness of algorithms themselves or to errors and inconsistencies ...
Добавлено: 7 января 2025 г.
Корпусная лингвистика на современном этапе
Плунгян В. А., Вестник Российской академии наук 2024 Т. 94 № 9 С. 787–794
Даётся общее представление о корпусной лингвистике, её истории, методах и влиянии на современные представления об изучении языка, которое обычно обозначается как “корпусная революция”. ...
Добавлено: 16 декабря 2024 г.
  • О ВЫШКЕ
  • Цифры и факты
  • Руководство и структура
  • Устойчивое развитие в НИУ ВШЭ
  • Преподаватели и сотрудники
  • Корпуса и общежития
  • Закупки
  • Обращения граждан в НИУ ВШЭ
  • Фонд целевого капитала
  • Противодействие коррупции
  • Сведения о доходах, расходах, об имуществе и обязательствах имущественного характера
  • Сведения об образовательной организации
  • Людям с ограниченными возможностями здоровья
  • Единая платежная страница
  • Работа в Вышке
  • ОБРАЗОВАНИЕ
  • Лицей
  • Довузовская подготовка
  • Олимпиады
  • Прием в бакалавриат
  • Вышка+
  • Прием в магистратуру
  • Аспирантура
  • Дополнительное образование
  • Центр развития карьеры
  • Бизнес-инкубатор ВШЭ
  • Образовательные партнерства
  • Обратная связь и взаимодействие с получателями услуг
  • НАУКА
  • Научные подразделения
  • Исследовательские проекты
  • Мониторинги
  • Диссертационные советы
  • Защиты диссертаций
  • Академическое развитие
  • Конкурсы и гранты
  • Внешние научно-информационные ресурсы
  • РЕСУРСЫ
  • Библиотека
  • Издательский дом ВШЭ
  • Книжный магазин «БукВышка»
  • Типография
  • Медиацентр
  • Журналы ВШЭ
  • Публикации
  • http://www.minobrnauki.gov.ru/
    Министерство науки и высшего образования РФ
  • https://edu.gov.ru/
    Министерство просвещения РФ
  • http://www.edu.ru
    Федеральный портал «Российское образование»
  • https://elearning.hse.ru/mooc
    Массовые открытые онлайн-курсы
  • НИУ ВШЭ1993–2026
  • Адреса и контакты
  • Условия использования материалов
  • Политика конфиденциальности
  • Правила применения рекомендательных технологий в НИУ ВШЭ
  • Карта сайта
Редактору