Глава
A Reusable Tagset for the Morphologically Rich Language in Change: a Case of Middle Russian
Статья посвящена созданию морфологического стандарта для разметки Старорусского корпуса, который входит в состав исторических корпусов Национального корпуса русского языка (НКРЯ). Для того, чтобы сделать разметку удобной для лингвистов, работающих с историческими и современными корпусами, а также для разработчиков систем автоматической обработки исторических текстов, мы предусматриваем две параллельные схемы морфологической разметки, в нотации НКРЯ и Универсальных зависимостей (Universal Dependencies). Предлагается ряд спецификаций тагсета для облегчения совмещения разметок разных корпусов, связывания и конвертирования данных.
В книге
В статье описан опыт использования аутентичных материалов Национального корпуса русского языка в рамках проекта «Создание электронного учебника по русскому языку как иностранному языку». Особое внимание уделяется рассмотрению путей автоматической адаптации языкового материала лингвистического корпуса и новостных статей. Анализируется возможность автоматического упрощения сложных аутентичных текстов с точки зрения их лексики, а также синтаксической и морфологической структуры. В статье описывается не только алгоритм решения поставленных задач, но и трудности, с которыми сталкиваются разработчики
Культуромика – новый метод исследования культурных и социальных процессов с помощью статистического анализа употребления слов и словосочетаний в огромных текстовых массивах. Исследования по культуромике выполняются на базе Google ngrams, хранилища всех сочетаний слов для каждого года длиной от 1 до 5 на 8 языках. Однако работа с большими данными обладает рядом проблем, решить которые предлагается, сузив объем данных, но существенно улучшив их по качеству. В статье вводится понятие medium data – средних данных, достаточных для того, чтобы строить с их помощью надежные статистические предсказания, но и допускающих, благодаря своему объему, качественную очистку, фильтрацию, объединение данных в семантические классы. В статье рассматриваются данные XVIII-XX веков, полученные как результат запроса «прилагательное + дорога». Весь массив данных был поделен на семантические классы, соответствующие одному из аспектов значений существительного дорога. В работе строятся наблюдения о том, какие из семантических классов ведут себя похожим образом, как меняется частотность вхождений семантических классов, а также их лексический состав с течением времени. Эти данные связываются с экстралингвистической реальностью. Фактически предпринимается попытка исследования того, как изменения в общественной жизни находят отражение в изменениях языковой практики. Это исследование проводится с помощью данных Национального корпуса русского языка.
Обсуждается задача создания электронного частотного словаря, в котором будет отражено распределение грамматических форм в парадигме словоизменения русских имен существительных, прилагательных и глаголов, т. е. грамматический профиль индивидуальных лексем и лексических групп. В практике составления частотных словарей и квантитативных исследований стандартным объектом изучения является общая иерархия грамматических категорий, например, частотность частеречных классов или среднее соотношение частот именительного и творительного падежей. В данном проекте фокус переносится на распределение грамматических форм у конкретных лексем, выявление единиц с нестандартным перевесом тех или иных форм в парадигме. Словарь предназначен для исследований русской грамматики, грамматической семантики, а также изучения вариативности форм.
Ресурс строится на материалах Национального корпуса русского языка. В статье затрагиваются общие вопросы использования корпусов для создания частотных ресурсов подобного рода и технологии обработки данных. Предлагаются решения, связанные с отбором данных, уровнем дробности грамматических кластеров, параметрами мониторинга изменения грамматического профиля в зависимости от времени создания текста и жанрово-функционального регистра.
Работа отражает новые результаты, полученные в ходе совместного проекта кафедры математической лингвистики СПбГУ с разработчиками Национального корпуса русского языка (НКРЯ, http://ruscorpora.ru). Цель исследования – разработка технологии автоматического распознавания в тексте конструкций, связанных с той или иной лексической единицей, и применение этой технологии в создании каталога русских лексических конструкций. Выделение конструкций предполагает использование потенциала многоплановой лингвистической разметки НКРЯ (прежде всего, лексико-семантической). В докладе обсуждается использование модуля визуализации данных для уточнения информации о конструкциях, реализующих значения исследуемых слов. Модуль предназначен для лексикографов и исследователей лексики и грамматики русского языка.
Русская корпусная лингвистика представлена в монографии двумя направлениями. Первая часть включает описание подходов и методов аннотации Национального корпуса русского языка (http://ruscorpora.ru), включая разметку лексико-грамматической, лексико-семантической, семантико-синтаксической и словообразовательной информации. Кроме того, описываются процедуры оценки инструментов автоматической разметки текстов (морфологических и синтаксических парсеров) и идеология создания двух частотных корпусных словарей, общего и лексико-грамматического. Во вторую часть входят исследования грамматики и лексики русского языка с применением квантитативных корпусных методов: изучение грамматических, конструкционных и семантических профилей языковых единиц, в том числе глаголов и глагольных приставок, форм числа имен и пространственных конструкций.
Применение НКРЯ и программ автоматического выравнивания текстов является новым этапом в обучении иностранным языкам, в частности, русскому языку как иностраному. В статье демонстрируются возможности параллельного подкорпуса НКРЯ (на примере русских и польских текстов, а также их переводов) и коллекции выровненных параллельных текстов, созданной при помощи бесплатного программного продукта LF aligner, для последующей разработки творческих лексико-стилистических заданий.