Quantitative Data on POS Distribution in the Beginnings and the Ends of Utterances in Everyday Russian Speech

T. Sherstinova

doi:10.1007/978-3-319-99579-3_61

Publications

?

Quantitative Data on POS Distribution in the Beginnings and the Ends of Utterances in Everyday Russian Speech

P. 596–605.

Sherstinova T.

The paper presents statistical data on POS distribution in the beginnings and the ends of everyday Russian utterances. The material for this study was a morphologically annotated subcorpus of the ORD corpus of spoken Russian with volume of 149737 tokens and containing fragments of everyday speech of 213 people of different gender, age, and professional groups. In the proposed study, the method of n-gram analysis, which is typically employed in computational linguistics to construct probabilistic language models, was used. In the subcorpus as a whole, the most frequent POS turned out to be verbs (17.23%), personal pronouns (15.60%), nouns (14%), particles (13%), and conjunctions (9%). However, in the initial position of spoken utterances the most frequent POS are particles (19.99%) and conjunctions (12%), and in the final position of utterances the verbs and nouns are used more often than others. The former are more typical for interrogative (27.66%) and narrative (25.42%) utterances, and the latter are frequently used in exclamative (29.95%) and narrative (24.28%) utterances. Besides, the most typical bigrams and trigrams in the beginning of utterances started with a particle and their probabilities are presented. A high percentage of syntactic models containing particles in the initial position of utterances leads us to the assumption that these units have special pragmatic functions, associated with marking phrase boundaries. Statistical data obtained here may be used for modeling of everyday utterances for the variety of dialogue systems and for improvement of Russian speech recognition systems.

Language: English

DOI

Text on another site

Keywords: Parts of Speech части речи

In book

Speech and Computer. Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics) Volume 11096 LNAI

Vol. 11096: Speech and Computer. 20th International Conference, SPECOM 2018, Leipzig, Germany, September 18–22, 2018, Proceedings. , Springer Publishing Company, 2018.

Грамматический ландшафт художественной прозы: динамика частеречных распределений в русском рассказе XX века

Kirina M., В кн.: Русская грамматика: полипарадигмальность как методологический принцип современных научных исследований : материалы IX Международного научного симпозиума.: Издательство ИГУ, 2025. С. 270–275.

В статье представлены результаты пилотного исследования, направленного на описание дистрибуции частей речи в синхронии и диахронии на материале русской прозы малой формы. Рассматриваются изменения морфологического состава художественных текстов (на уровне грамматических классов) на протяжении XX века в соответствии с 9 историко-культурными периодами. Материалом исследования выступает выборка из 943 рассказов суммарным объемом более 3 млн. словоупотреблений. ...

Added: February 28, 2026

Принцип дистинктивных контекстов при анализе оппозиции имен и глаголов в качестве предикатов на материале китайского позднеклассического текста «Луньхэн» I в. н. э.

Durymanova A., Acta Linguistica Petropolitana. Труды института лингвистических исследований 2024 Т. 20 № 2 С. 448–489

The article analyzes syntactic variations of presumably noun and verbal lexemes functioning as predicates on the evidence of “Lunheng”, a Late Classical Chinese text from the I A. D. One of the basic criteria for differentiating the predicate position is syntactic distribution, the other being the distinction context (DCon) approach we have developed for this purpose. This approach relies ...

Added: October 1, 2025

Именные vs неименные сказуемые в абазинском языке

Lander Y., В кн.: Клычевские чтения - 2023. Материалы международной научной конференции.: Карачаевск: Издательство Карачаево-Черкесского государственного университета имени У.Д. Алиева, 2023. С. 5–10.

В абхазо-адыгских языках именные основы с легкостью принимают морфологию сказуемого, что приводит к определенным сложностям в противопоставлении частей речи. В работе обсуждаются разные стратегии, противопоставляющие имена прочим знаменательным словам в позиции сказуемого в абазинском языке и предварительно обсуждается аналогичный абхазский материал. ...

Added: June 1, 2023

Технологии эмоциональной демократии в эпоху постправды для манипуляции гражданским обществом в Республике Корея

Vishnyakova V., В кн.: Современные проблемы Корейского полуострова.: ИДВ РАН, 2021. Гл. 11 С. 116–126.

The article deals with the development of Korean linguistics and the formation of their linguistic tradition. Four main periods are distinguished such as origin, formation, division of Korea and the modern period, which are represented by the Korean linguists’ landmark achievements. The Korean linguistic tradition developed evolutionarily, and in a hundred years formed into an ...

Added: October 20, 2021

Курс практической грамматики английского языка. Части речи, обозначающие номинацию и качество референта: существительное, местоимение, прилагательное, наречие, числительное = A Course in Practical English Grammar. Substantive and Qualifying Parts of Speech: Noun, Pronoun, Adjective, Adverb, Numeral: учебное пособие

Gumovskaya G., Радченко Л. И., Бондаренко С. В., М.: Московский педагогический государственный университет, 2021.

A Course in Practical English Grammar: Substantive and Qualifying Parts of Speech is a practice grammar book intended for senior students and postgraduate students studying English as their principal course subject as well as for those wishing to gain professional language skills. Despite the textbook draws on insights from various traditional research, it aims at ...

Added: October 19, 2021

Части речи как отражение мифологической картины мира в лирике Пиндара и ее переводах на русский язык (на материале 1-й Пифийской оды)

Mostovaya V., В кн.: New Trends in Slavic Studies.: М.: Красанд/URSS, 2021. С. 578–583.

Added: October 18, 2021

Развитие языкознания в Республике Корея

Vishnyakova V., В кн.: Корейский полуостров: история и современность.: ИДВ РАН, 2020. Гл. 1 С. 407–416.

Added: October 28, 2020

Синтаксис повседневной русской речи сквозь призму N-грамм анализа

Sherstinova T., В кн.: Русская грамматика: Структурная организация языка и процессы языкового функционирования.: М.: ЛЕНАНД, 2019. С. 454–466.

В предлагаемом исследовании для выявления типовых синтаксических конструкций повседневной устной речи используется метод N-грамм анализа, применяемый в компьютерной лингвистике для построения вероятностных моделей языка. Материалом для исследования стал морфологически аннотированный подкорпус звукового корпуса «Один речевой день» в объеме 149 737 токенов, содержащий фрагменты повседневной речи 213 человек. Получена информация о распределении частей речи и нелексических токенов, входящих во фразовую ...

Added: October 29, 2019

Международный скандал (сложные слова с первым компонентом меж- ~ между- в истории русского литературного языка)

Itkin I., Пекарская В. Д., Труды института русского языка им. В.В. Виноградова 2017 № 13 С. 426–434

Статья посвящена закономерностям выбора вариантов меж- ~ между- в словах типа межличностный, межэтажный ~ междуэтажный, междуцарствие, межсезонье и т.д. Показано, что соответствующие правила существенно различны для прилагательных и существительных. Несмотря на то, что самое частотное прилагательное данного типа — международный— употребляется только с между-, для подавляющего большинства прилагательных предпочтительным (а не-редко — единственно возможным) является ...

Added: October 28, 2019

Bagvalal place names as adverbs

Daniel M., STUF - Language Typology and Universals 2019 No. 72(3) P. 297–311

In Bagvalal (East Caucasian), native place names show strongly reduced morphological inflection. They combine with spatial suffixes identical to those used on nouns and spatial adverbs and with attributive and plural suffixes identical to those of nominal genitive and plural and thus have mixed adverbial nominal morphology. Place names are unmarked in spatial function but ...

Added: April 17, 2019

Классификация частей речи в лингвистической доктрине Марка Теренция Варрона.

Drachëva N., В кн.: Индоевропейское языкознание и классическая филология – XVI. Материалы чтений, посвященных памяти профессора Иосифа Иоисеевича Тронского 18–20 июня 2012 г.: СПб.: Наука, 2012. С. 201–222.

В статье рассматривается классификация частей речи Марка Теренция Варрона (на материале трактата «De Lingua Latina»). Варрон анализирует части речи, руководствуясь двумя принципами: морфологическим и синтаксическим. Опираясь на результаты предшествующих исследований данной проблематики, Варрон разрабатывает оригинальную классификацию частей речи, которая является важным элементом его учения об изменении слов (declinatio). ...

Added: November 7, 2018

Части речи

Sichinava D., В кн.: Материалы к корпусной грамматике русского языкаВып. III: Части речи и лексико-грамматические классы.: СПб.: Издательство Нестор-История, 2018. С. 9–39.

Статья содержит краткий очерк предлагавшихся подходов к выделению частей речи в русском языке, приводит результаты таких классификаций, корпусную статистику по частям речи. ...

Added: November 4, 2018

Материалы к корпусной грамматике русского языка

СПб.: Издательство Нестор-История, 2018.

The volume is the third issue of a corpora-based grammar of Russian. The volume deals with the issues of parts of speech and, more generally, with formal classes of lexicon, It comprises descriptive papers of separate POS and lesser world classes. ...

Added: November 4, 2018

Общее и русское языкознание. Избранные работы.

Polivanova A., Российский государственный гуманитарный университет, 2008.

Настоящий сборник включает двенадцать статей, посвященных разным частным проблемам общего и русского языкознания. Статьи расположены в хронологическом порядке. Тексты большинства статей подверглись незначительной, но необходимой переработке. Однако в целом это старые работы: способ изложения, а также ссылки на литературу почти не обновлялись. ...

Added: September 25, 2018

English heptathlon: Revision and training of phonetics and morphology

Danilova O., Чумилкин С.В., Meniailo V. V., St. Petersburg: Asterion, 2017.

The book is intended primarily for the first year undergraduate students but can be also recommended for students of other levels and adults who would like to improve their pronunciation and review the basics of the English grammar. Its main objective is complex revision and development of the student’s knowledge of English phonetics and morphology ...

Added: January 21, 2018

К уточнению частеречного статуса признаковых лексем в арчинском языке

Daniel M., Вопросы языкознания 2018 № 4 С. 114–132

In this article, I consider the inflection of property words in Archi (Lezgic, East Caucasian). While property words show some similarities with verbs (and are indeed classified as a sybtype of verbs in Kibrik et al.’s 1977 grammar of Archi), I argue that this similarity is too superficial to categorize them as verbs. I first consider inflectional morphology ...

Added: November 16, 2017

ПРОБЛЕМА ВЫДЕЛЕНИЯ ПРЕВЕРБОВ КАК ГРАММАТИЧЕКОГО КЛАССА В ТЕГИНСКОМ ГОВОРЕ ХАНТЫЙСКОГО ЯЗЫКА

Muraviev N., В кн.: Acta Linguistica Petropolitana. Труды Института лингвистических исследований РАН. Т. VII. Ч. 3.: СПб.: Наука, 2011.

The present study is devoted to the category of preverbs in the Tegi dialect of Khanty. While there are no descriptions of this category in reference grammars of the language, in dictionaries such lexemes are marked as “verbal particles”. Even though they form regular combinations with verbs there is hardly any considerable difference between preverbs ...

Added: October 20, 2017