• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Глава

Синтаксис повседневной русской речи сквозь призму N-грамм анализа

С. 454-466.

В предлагаемом исследовании для выявления типовых синтаксических конструкций повседневной устной речи используется метод N-грамм анализа, применяемый в компьютерной лингвистике для построения вероятностных моделей языка. Материалом для исследования стал морфологически аннотированный подкорпус звукового корпуса «Один речевой день» в объеме 149 737 токенов, содержащий фрагменты повседневной речи 213 человек. Получена информация о распределении частей речи и нелексических токенов, входящих во фразовую разметку расшифровок устной речи, определены наиболее типичные части речи, характерные для начальной позиции фраз и синтагм, а также для финальной позиции фраз в зависимости от их типа, приведены списки наиболее частотных биграмм и триграмм с указанием их вероятности.