• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Статья

Взiaлъ, възялъ, вьзял: Обработка орфографической вариативности при лексико-грамматической аннотации старорусского корпуса XV-XVII вв.

Гаврилова Т. С., Шалганова Т. А., Ляшевская О. Н.

Рассматривается проблематика нестабильной орфографии корпуса текстов позднедревнерусского периода в свете их автоматической обработки. Тексты Старорусского корпуса Национального корпуса русского языка (НКРЯ) включают памятники, написанные преимущественно в XV-XVII вв., т. е. в тот период, когда вариативность написания слов была общераспространенным явлением. Задача лексико-грамматической разметки словоформ в корпусе заключается в определении начальной формы (словарной формы, леммы), части речи и грамматических характеристик. Традиционные методы автоматического определения лексико-грамматических характеристик базируются на презумпции идентичного вида основы и окончания слова в каждой из грамматических форм. Поэтому нестабильная орфография памятников становится причиной неэффективной работы автоматических морфологических анализаторов (таггеров) – в том случае, если они не оснащены модулем поддержки орфографической вариативности.

В работе применяется относительная и абсолютная нормализации орфографии. Относительная нормализация предполагает размножение орфографических представлений основ и окончаний в грамматическом словаре по регулярным правилам, обрабатывающим а) флексии; б) именные основы с регулярной вариативностью -ск(ии) / ст(ии), -и(я) / -ь(я); в) основы имен церковнославянского происхождения; г) основы приставочных глаголов; и т. п. Абсолютная нормализация предусматривает перевод пар регулярно варьирующихся букв (например, о / ѡ, е / ѣ) и буквосочетаний (например, шт / щ, жю / жу) к единому представлению (например, о, е, щ, жу). При абсолютной нормализации унифицируются как единицы грамматического словаря, так и словоформы в тексте.