Эксперименты по автоматическому разрешению лексико-семантической неоднозначности и выделению конструкций (на материале Национального корпуса русского языка)

Митрофанова О. А.; О. Н. Ляшевская; Грачкова М. А.; Шиморина А. С.; Шурыгина А. С.; Романов С. В.

?

Эксперименты по автоматическому разрешению лексико-семантической неоднозначности и выделению конструкций (на материале Национального корпуса русского языка)

С. 159-175.

Митрофанова О. А., Lyashevskaya O., Грачкова М. А., Шиморина А. С., Шурыгина А. С., Романов С. В.

The research project reported in this paper aims at automatic extraction of
linguistic information from contexts in the Russian National Corpus (RNC) and its subsequent use in building a comprehensive lexicographic resource – the Index of Russian lexical constructions. The proposed approach implies automatic context classification intended for word sense disambiguation (WSD) and construction identification (CxI). The automatic context processing procedure takes into account the following types of contextual information represented in the RNC multilevel annotation: lexical (lemma) tags (lex), morphological tags (gr), lexical-semantic (taxonomy) tags (sem), and combinations of the various types of tags. Multiple experiments on WSD and CxI are performed using RNC representative context samples. In each series of experiments we analyze (1) different context markers of meaning of target words and (2) constructions including context markers and target words.

Language: Russian

Full text

Keywords: Национальный корпус русского языка конструкции разрешение лексико-семантической неоднозначности выделение конструкций классификация контекстов

In book

Структурная и прикладная лингвистика

Вып. 9. , СПб. : Издательство СПбГУ, 2012

ЕВРика! Сборник статей о поисках и находках к юбилею Е.В. Рахилиной

М. : Лабиринт, 2018

В сборнике на материале свыше 20 языков рассматриваются различные аспекты лингвистического поведения глаголов с семантикой ‘искать’ и ‘находить’. В фокусе внимания оказываются прежде всего принципы лексикализации исследуемых зон: обсуждается, какие типы поисков и находок могут лексически противопоставляться в том или ином языке. Предметом анализа становятся также синтактико-грамматические свойства изучаемых глаголов и пути их диахронической эволюции. Специальный раздел книги посвящен возможностям использования ...

Added: February 24, 2018

Использование НКРЯ в свете применения теории национально-языковой ориентации

Prilepskaya M. V., В кн. : Актуальные проблемы преподавания иностранных языков в неязыковых вузах (материалы Межфакультетской научно-методической конференции). : М. : Издательский дом НИУ ВШЭ, 2012. С. 457-461.

Существующая в преподавании русского языка как иностранного методика национально-языковой ориентации применима и к преподаванию и изучению иностранного языка в части практики пользования исходным, русским, языком. Для преподавателей иностранного языка Национальный корпус русского языка (НКРЯ) может представлять интерес с точки зрения отработки навыков корпусного преподавания, способствуя решению педагогической задачи по формированию высокообразованных носителей русскоязычной культуры. Национальный ...

Added: June 13, 2012

Имена времени: эпитеты десятилетий в Национальном корпусе русского языка как проекция культурной памяти

Bonch-Osmolovskaya A. A., Шаги/Steps 2018 № 4 С. 115-146

The paper studies constructions that involve the name of the decade - the twenties, the thirties, the forties etc. – and an adjective in attributive function. The basic assumption is that these constructions reflect the mnemonic pattern of each of the decade from the Soviet and PostSoviet history, the analysis of the constructions therefore is a clue to ...

Added: April 15, 2018

Частотный словарь современного русского языка (на материалах Национального корпуса русского языка)

Lyashevskaya O., Sharoff S., М. : Азбуковник, 2009

Частотный словарь содержит сведения о наиболее употребительных словах современного русского языка. Он создан на основе Национального корпуса русского языка, авторитетного и представительного электронного ресурса. Подкорпус 1950-2007 гг. объемом 92 млн. словоупотреблений включает тексты художественной литературы, средств массовой информации, технические, деловые документы и т.д., а также записи разговорной речи. Словарь представляет разнообразную статистическую информацию для 50 ...

Added: December 17, 2012

О частотном словаре Национального корпуса русского языка

Lyashevskaya O., В кн. : Слово и словарь = Vocabulum et vocabularium: cборник научных трудов по лексикографии. : Гродно : ГрГУ, 2007.

Обосновывается необходимость создания частотного словаря современного русского языка; дается проспект словаря. ...

Added: December 17, 2012

Динамика концептуализации и категоризации пространства в русском языке (по данным словарей и НКРЯ)

Romanova T. V., Respectus Philologicus 2013 № 23(28) С. 109-117

В статье приведены примеры, собранные по данным словарей, Национального корпуса русского языка (НКРЯ), наиболее ярко иллюстрирующие объективацию пространства в языковой картине мира. Проанализированные данные лингвистических словарей и энциклопедических источников позволили определить динамику процесса концептуализации и особенности категоризации пространства в русском языковом сознании и осуществить проверку выдвинутых гипотез. ...

Added: June 17, 2013

The Second Genitive in Russian

Daniel M., , in : Partitive cases and related categories. : Berlin, NY : De Gruyter Mouton, 2014. Ch. 9. P. 347-377.

This paper is an overview of the so-called second genitive in Russian, a nominal form available for a minority of Russian nouns but widely used with these nouns in certain contexts. In many ways, the second genitive is a secondary case. Thus, it may always be substituted with a regular genitive form, while the opposite ...

Added: October 17, 2013

Корпусные исследования особенностей речи нестандартных говорящих ("херитажный русский")

Rakhilina E. V., 154430030, Acta Linguistica Petropolitana. Труды института лингвистических исследований 2015 Т. XI № 1 С. 621-639

The paper presents an analysis of comparative, conditional and prepositional constructions in the speech of heritage speakers of Russian and learners of Russian as a second language on the material from the Russian Learner Corpus. ...

Added: July 25, 2015

Корпусные инструменты в грамматических исследованиях русского языка

Lyashevskaya O., М. : Языки славянской культуры, 2016

Corpus linguistics can be broadly defined in terms of two partially overlapping research dimensions . On the one hand, corpus linguistics is knowledge of how to compile and annotate linguistic corpora. On the other hand, corpus linguistics is a family of qualitative and quantitative methods of language study based on corpus data. The book presents ...

Added: March 26, 2015

Параллельный алгоритм составления словаря глагольного управления для новостных текстов на английском языке

Гурбанов Т. П., Klyshinskiy E., Известия Национальной академии наук Азербайджана. Серия физико-технических и математических наук: Информатика и проблемы управления 2012 Т. 32 № 13 С. 47-58

В статье описывается решения задачи выделения групп слов из синтаксически связанных конструкций, которые в свою очередь выделяются из содержимого текстового файла с исходными данными. Решение задачи производится при помощи языка программирования Python с использованием библиотек NLTK и Pymorphy. ...

Added: November 1, 2012

О работе Московской лексико-типологической группы

Rakhilina E. V., Reznikova T., В кн. : Проблемы лексико-семантической типологии. Вып. 1.: Воронеж : Воронежский государственный университет, 2011. С. 126-135.

Рассказывается о Московской семантической школе, с ее многообразным опытом практического приложения лингвистической семантики к данным конкретного языка, вплоть до создания словарей нового типа. ...

Added: April 21, 2013

Глаголы со значением продолжения: семантика и конструкции

Apresyan V., Известия РАН. Серия литературы и языка 2017 Т. 76 № 2 С. 5-15

В работе представлены результаты корпусного исследования семантического поля ‘продолжения’. Для глаголов со значением ‘продолжения’ релевантны следующие семантические противопоставления: 1) тип ситуации и степень контроля субъекта над ней (действие, состояние, событие, мероприятие, временной период); 2) ожидания относительно прекращения ситуации; 3) фаза ситуации, на которой сфокусировано ожидание – начало новой ситуации или конец старой; 4) наличие фиксированного ...

Added: November 30, 2016

Single-sentence Readability Prediction in Russian

Karpov N., Vitugin F., Baranova J., , in : Analysis of Images, Social Networks and Texts. Vol. 436: 3rd International Conference on Analysis of Images, Social networks, and Texts.: NY : Springer, 2014. Ch. 436. P. 91-100.

In an effort to make reading more accessible, an automated readability formula can help students to retrieve appropriate material for their language level. This study attempts to discover and analyze a set of possible features that can be used for single-sentence readability prediction in Russian. We test the influence of syntactic features on predictability of ...

Added: November 28, 2014

A Reusable Tagset for the Morphologically Rich Language in Change: a Case of Middle Russian

Lyashevskaya O., , in : Computational Linguistics and Intellectual Technologies. Issue 18.: M. : Russian State University for the Humanitie, 2019. P. 422-434.

The paper discusses the standardization efforts to create a morphological standard for the Middle Russian corpus, which is part of the historical collection of the Russian National Corpus (RNC). To meet the needs of different categories of corpus researchers as well as NLP developers, we consider two styles of the morphological annotation (RNC schema and ...

Added: June 12, 2019

«Мигрант» и «миграция» по данным словарей и лингвистических корпусов русского, чешского и немецкого языков

Sibirtseva V., Крылова Л.К., В кн. : Мультикультурализм или интеркультурализм? Опыт Австрии, России, Европы. Т. 9.: Н. Новгород : Деком, 2013. С. 78-86.

The topic of the article reflects the relationship to the concepts of "migration" and "worker" in Russia, the Czech Republic and in German-speaking countries over the past 30 years. Frequency of use of these words is confirmed by the fact that migration is a very difficult and complex problem to solve. Language is sensitive to ...

Added: October 4, 2013

Корпусное преподавание в российской школе

Levinzon A. I., Труды института русского языка им. В.В. Виноградова 2015 № 6 С. 641-658

До сих пор на уроках русского языка в российской школе практически не используются электронные корпуса. Цель статьи — продемонстрировать возможности НКРЯ как инструмента эффективной работы с детьми. Мы анализируем как основные достоинства различных методов корпусной педагогики, так и сложности, которые предстоит преодолеть учителю, выбравшему, например, метод обучения на основе анализа данных. Ключевые слова: корпусная педагогика, Национальный корпус русского языка, ...

Added: March 14, 2016

Конструкции с отрицательными элементами ни капли и ни разу в русском языке

Baranova V. V., Вопросы языкознания 2021 Т. 5 С. 93-105

There are many negative polarity items in Russian reinforcing the sentential negation. It may be negative pronouns with affix ni- (ničego, ničut’, nikogo) and quantifiers grammaticalized from small- size nouns. The paper deals with the new way to express emphatic negation and the process of reinforcement of negation due to including new markers of double ...

Added: October 4, 2021

Какая-никакая, а Всемирная паутина: конструкции с «редуплицированными» уступительными местоимениями в русском языке

Zevakhina N., Оскольская С. А., В кн. : Современный русский язык в Интернете. : М. : Языки славянских культур, 2014. С. 202-221.

The paper discusses so-called reduplicated concessive wh-words in Russian (e.g., kakoj-nikakoj). For the time being, they exhibit irregular and infrequent items and belong to the language periphery of colloquial speech. However, Internet data enable us to make some statements about its functioning both in oral and written speech. The study is based on the data ...

Added: January 17, 2014

Semantic Annotation Layer in Russian National Corpus: Lexical Classes of Nouns and Adjectives

Lyashevskaya O., Shemanaeva O., , in : Proceedings of the Sixth International Language Resources and Evaluation (LREC'08), Marrakech, Morocco, 28-30 May 2008. : Марракеш : ELRA, 2008.

The paper describes the project held within Russian National Corpus (http://www.ruscorpora.ru). Beside such obligatory constituents of a linguistic corpus as POS (parts of speech) and morphological tagging RNC contains semantic annotation. Six classifications are involved in the tagging: category, taxonomy, mereology, topology, evaluation and derivational classes. The operating of the context semantic rules is shown ...

Added: December 17, 2012

Семантические фильтры для разрешения многозначности в национальном корпусе русского языка: глаголы

Toldova S., Kustova G., Lyashevskaya O., В кн. : Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 4–8 июня 2008 г.). Вып. 7.: М. : РГГУ, 2008. С. 522-529.

В статье обсуждаются результаты эксперимента по разработке системы семантических фильтров глаголов, используемых для разрешения неоднозначности лексико-семантической разметки в Национальном корпусе русского языка. Основные задачи эксперимента: проверить, в какой степени можно использовать специализированные лексикографические источники для создания таких фильтров (в качестве основного источника использовался словарь глагольного управления [Апресян-Палл 1982]); какие ограничения на актанты (семантические, лексические, грамматические) ...

Added: December 17, 2012

Частотный словарь Национального корпуса русского языка: концепция и технология создания

Sharoff S., Lyashevskaya O., В кн. : Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 4–8 июня 2008 г.). Вып. 7.: М. : РГГУ, 2008. С. 345-351.

Словарь содержит представительный базовый словник современного русского языка (2-я половина XX – начало XXI вв.), снабженный информацией о частотности употребления, статистическом распределении по текстам и жанрам, по времени создания текстов. Словарь основан на текстах Национального корпуса русского языка объемом 100 млн. словоупотреблении. ...

Added: December 17, 2012

В генеральских руках Ерофея: О синтаксическом представлении именованных сущностей в поэтическом и исторических корпусах

Lyashevskaya O., Журавлева А. А., В кн. : VII Международные Бодуэновские чтения: Международная конференция И.А. Бодуэн де Куртенэ и мировая лингвистика. : Каз. : Казанский (Приволжский) федеральный университет, 2019.

В статье анализируется смешанная адъективно-генитивная посессивная конструкция в контексте ее представления в синтаксическом формализме Universal Dependencies. Исследование выполнено на материалах частотных синтаксических баз данных поэтического и старорусского корпусов НКРЯ. ...

Added: December 15, 2019

К задаче автоматической лексико-грамматической разметки старорусского корпуса XV-XVII вв.

Гаврилова Т. С., Шалганова Т. А., Lyashevskaya O., Вестник Православного Свято-Тихоновского гуманитарного университета. Серия 3: Филология 2016 Т. 47 № 2 С. 7-25

The paper discusses two approaches to the automatic lexico-grammatical tagging of the Middle Russian texts (1400–1700), included in the Russian National Corpus (RNC). The task is to assign each token a part of speech label, a tuple of grammatical features, and a lemma (without disambiguation). Middle Russian combines, on the one hand, features of ...

Added: December 14, 2016