?
Создание лексико-грамматической базы для старорусского корпуса НКРЯ
С. 229-234.
Our task was to create an automatic lexico-grammatical tagger of the Middle Russian texts (1400–1700) included in the Russian National Corpus (RNC). Our approach is based on creating an electronic dictionary of Old Russian and building a module to handle spelling inconsistency. In the absence of open electronic resources for Middle Russian morphology, an electronic dictionary of Church Slavonic was expanded and adapted to Middle Russian.
In book
Ижевск, В : Lietuvos mokslo taryba, 2016
Гаврилова Т. С., Шалганова Т. А., Lyashevskaya O., Вестник Православного Свято-Тихоновского гуманитарного университета. Серия 3: Филология 2016 Т. 47 № 2 С. 7-25
The paper discusses two approaches to the automatic lexico-grammatical tagging of the Middle Russian texts (1400–1700), included in the Russian National Corpus (RNC). The task is to assign each token a part of speech label, a tuple of grammatical features, and a lemma (without disambiguation). Middle Russian combines, on the one hand, features of ...
Added: December 14, 2016
Гаврилова Т. С., Шалганова Т. А., Lyashevskaya O., Вестник Православного Свято-Тихоновского гуманитарного университета. Серия 3: Филология 2017 Т. 51 С. 11-20
The highly unstable orthography of the Middle Russian texts poses a challenge for their automatic processing. The Middle Russian subcorpus of the Russian National Corpus (RNC) includes documents written mainly between 1400 and 1700, when the variation in spelling was still a norm. The task of lexico-grammatical analysis is to assign a dictionary form (lemma), ...
Added: December 14, 2016
Митрофанова О. А., Паничева П. В., Компьютерная лингвистика и интеллектуальные технологии 2013 Т. 19 С. 465-477
Доклад отражает новые результаты, полученные в ходе совместного про- екта кафедры математической лингвистики СПбГУ с разработчиками Национального корпуса русского языка (НКРЯ, http://ruscorpora.ru). Цель исследования — разработка технологии автоматического распознавания в тексте конструкций, связанных с той или иной лексической единицей, и применение этой технологии в создании каталога русских лексиче- ских конструкций. Выделение конструкций предполагает использование потенциала ...
Added: September 30, 2015
Daniel M., , in : Partitive cases and related categories. : Berlin, NY : De Gruyter Mouton, 2014. Ch. 9. P. 347-377.
This paper is an overview of the so-called second genitive in Russian, a nominal form available for a minority of Russian nouns but widely used with these nouns in certain contexts. In many ways, the second genitive is a secondary case. Thus, it may always be substituted with a regular genitive form, while the opposite ...
Added: October 17, 2013
Митрофанова О. А., Паничева П. В., В кн. : Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 29 мая - 2 июня 2013 г.). В 2-х т. Т. 1: Основная программа конференции. Вып. 12 (19).: М. : РГГУ, 2013. С. 465-477.
Our research aims at automatic identification of constructions associated with particular lexical items and its subsequent use in building the catalogue of Russian lexical constructions. The study is based on the data extracted from the Russian National Corpus (RNC, http://ruscorpora.ru). The main accent is made on extensive use of morphological and lexico-semantic data drawn from ...
Added: September 23, 2013
Lyashevskaya O., , in : Computational Linguistics and Intellectual Technologies. Issue 18.: M. : Russian State University for the Humanitie, 2019. P. 422-434.
The paper discusses the standardization efforts to create a morphological standard for the Middle Russian corpus, which is part of the historical collection of the Russian National Corpus (RNC). To meet the needs of different categories of corpus researchers as well as NLP developers, we consider two styles of the morphological annotation (RNC schema and ...
Added: June 12, 2019
Савчук С. О., Архангельский Т. А., Bonch-Osmolovskaya A. A. et al., Вопросы языкознания 2024
The paper provides an overview of the results of the fundamental reconstruction and modernization project of the National Corpus of the Russian Language platform, carried out from 2020 to 2023. The focus of the paper is on the new opportunities that are opening up for linguists and a wider audience. This includes improving the representativeness ...
Added: March 21, 2024
Daniel M., Khurshudian V., , in : Linguistics of Temperature. : Amsterdam : John Benjamins Publishing Company, 2015. P. 392-439.
This paper is an analysis of lexical categorisation of the temperature domain in modern Eastern Armenian. Compared to the vast research outline proposed in (Koptjevskaja-Tamm 2011), this paper has several important limitations. First, it is focused on non-derived, primary temperature terms (most of which happen to be adjectives or nouns, or both). Derived lexical items, ...
Added: October 17, 2013
Kholodilova M., В кн. : Материалы к корпусной грамматике русского языка. Выпуск II. Синтаксические конструкции и грамматические категории. : М. : Издательство Нестор-История, 2017. С. 205-279.
В главе рассматривается устройство относительных предложений в русском языке. Рассматриваются как данные о грамматической приемлемости различных синтаксических структур, так и количественные данные об их распределении, полученные в результате корпусного исследования. ...
Added: January 21, 2019
М. : Изд-во РГГУ, 2015
Сборник содержит труды 21-й Международной конференции по компьютерной лингвистике. ...
Added: May 20, 2015
Moskvina A., Митрофанова О. А., Ерофеева А. Р. et al., В кн. : Труды международной конференции «КОРПУСНАЯ ЛИНГВИСТИКА – 2017». : СПб. : Издательство СПбГУ, 2017. С. 268-275.
В работе представлены результаты работы по модификации алгоритма RAKE, используемого для быстрого извлечения ключевых слов и словосочетаний. В качестве источника информации о границах синтаксических групп в RAKE предлагаются правила грамматики синтаксического анализатора для русского языка на основе NLTK (NLTK4RUSSIAN). Для определения эффективности работы алгоритма с русскоязычными текстами были проведены эксперименты на материале представительных корпусов. ...
Added: September 29, 2020
Kibrik A. A., Khudyakova M., Dobrov G. B. et al., Frontiers in Psychology 2016 Vol. 7 No. 1429 P. 1-21
We report a study of referential choice in discourse production, understood as the choice between various types of referential devices, such as pronouns and full noun phrases. Our goal is to predict referential choice, and to explore to what extent such prediction is possible. Our approach to referential choice includes a cognitively informed theoretical component, ...
Added: September 28, 2016
Piperski A., В кн. : Двенадцатая Конференция по типологии и грамматике для молодых исследователей. Тезисы докладов (Санкт-Петербург, 19–21 ноября 2015 г.). : СПб. : Издательство Нестор-История, 2015. С. 69-72.
Исследование особенностей русских двувидовых глаголов при помощи корпусных методов ...
Added: November 22, 2015
Piperski A., , in : Компьютерная лингвистика и интеллектуальные технологии. По материалам ежегодной Международной конференции "Диалог" (2015). : М. : Изд-во РГГУ, 2015. P. 494-500.
This paper discusses the notions of acceptability, occurrence, grammaticality and existence, and focuses on the relationship between corpus linguistics and the question of the existence of lexical items. Since corpora are almost exclusively samples from larger populations, it is claimed that they cannot provide evidence for non-existence of words, collocations or constructions. This is because ...
Added: March 13, 2016
Лаврентьев А. М., Рябова Д. М., Тихомирова Е. А. et al., Вопросы кибербезопасности 2020 Т. 3 № 37 С. 58-65
The purpose of the study: development of a technique for comparing special text corpora for subsequent use in the identification of extremist texts Method: frequency methods and a specificity indicator for text analysis of the corpus platform TXM were used. Results: a methodology for comparative analysis of special text corpora has been developed, which makes ...
Added: October 31, 2020
Botchkarev A., Вестник Новосибирского государственного университета. Серия: Лингвистика и межкультурная коммуникация 2016 Т. 14 № 3 С. 5-14
This article explores the ways of displaying fear in the Russian language image of the world. According to the National Corpus of the Russian language, in its most usual manifestation, fear covers and paralyzes; this distressing emotion is caused by somebody, apprehension to lose something or somebody as well as by exposure to an imminent ...
Added: November 28, 2016
Vlasova E., Бец Ю. В., Северина Е. М., В кн. : «Русская грамматика в диалоге научных школ, направлений, методов». : Владивосток : Издательство ДВФУ, 2022.
В статье анализируются нетривиальные фонетические и грамматические явления устной речи иностранцев, изучающих русский язык. Показано, что устный учебный корпус позволяет получить систематическое представление о компенсаторных механизмах речепорождения, проверять и формулировать гипотезы. ...
Added: November 8, 2023
Kuzmina T. A., Ученые записки национального общества прикладной лингвистики 2013 № 1(1) С. 26-35
В работе представлены результаты изучения инструментов корпусной лингвистики, которые представляют широкий спектр возможностей для развития навыков академического письма. Исследуются некоторые практические аспекты названных технологий, которые позволяют существенно улучшить точность и правильность изложения материала. ...
Added: April 24, 2013
Zevakhina N., Dzhakupova S., , in : Материалы 21-й Международной конференции по компьютерной лингвистике "Диалог". : М. : Изд-во РГГУ, 2015.
The Corpus of Russian Student Texts (CoRST) is a computational and research project started in 2013 at the Linguistic Laboratory for Corpora Research Technologies at HSE. It comprises a collection of Russian texts written by students from various Russian universities. Its main research goal is to examine language deviations viewed as markers of language change. ...
Added: May 20, 2015
Andriyanets V., Daniel M., Pakendorf B., , in : Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной международной конференции «Диалог» (Москва, 30 мая — 2 июня 2018 г.). Вып. 17(24).: М. : Издательский центр «Российский государственный гуманитарный университет», 2018. P. 28-38.
This paper discusses a method to detect statistically significant linguistic differences between corpora while factoring in possible variability within the very corpora to be compared. Specifically, we compare two small corpora of dialects of Even, Bystraja and Lamunkhin Even, in an attempt to identify morphemes that are more frequent in either of the corpora. To ...
Added: June 19, 2018
Khomenko A., В кн. : Когнитивно-дискурсивная парадигма в лингвистике и смежных науках: современные проблемы и методология исследования: материалы Х Международного конгресса по когнитивной лингвистике. 17–20 сентября 2020 г. Т. 2(41).: Уральский государственный педагогический университет, 2020. С. 893-897.
В настоящей статье речь пойдет о применении интегративного подхода к определению гендера в рамках решения задач судебной лингвистики. Автор интегрирует методы когнитивной науки, корпусной и, шире, компьютерной лингвистики, а также классический структурный анализ текста для идентификации характеристик мужской и женской речи. ...
Added: August 11, 2021
Skorinkin D., В кн. : Два века в двадцати словах. : М. : Издательский дом НИУ ВШЭ, 2016. С. 294-316.
Статья рассказывает о развитии и изменении значений слова "Публика" на протяжениии XIX-XX веков ...
Added: May 12, 2016
Piperski A., В кн. : Труды Международной научной конференции "Корпусная лингвистика-2015". : СПб. : Издательство СПбГУ, 2015. С. 374-381.
The paper deals with the use of disyllabic comparative conjunctions budto, slovno and točno ‘like’ in the texts of fifteen Russian poets. I study the frequency of their use in cases where these conjunctions are mutually interchangeable and show that their total frequency increases after the end of the Golden Age of Russian poetry (approx.. ...
Added: March 15, 2017
Vydrin V., Rovenchak A., Maslinsky K. A., , in : Actes de la conférence conjointe JEP-TALN-RECITAL 2016. Vol. 11: Traitement automatique des langues africaines (TALAf) .: P. : Association pour le Traitement Automatique des Langues, 2016. P. 87-94.
An annotated corpus of Guinean Maninka, Corpus Maninka de Référence (CMR), was published in April 2016. It includes two subcorpora: one contains texts originally written in Latin-based graphics (792,778 words), and the other one is composed of texts in N'ko alphabet (3,105,879 words). Both subcorpora are searchable in both Latin-based graphics and in N'ko. In ...
Added: March 10, 2017