• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Статья

Автоматическое обнаружение и исправление деривационных ошибок в письменной речи на русском как иностранном

Выренкова А. С., Смирнов И. Ю.

Учебные корпуса представляют собой один из наиболее ценных источников статистических данных об ошиб-ках учащихся. Например, информация из корпусов учащихся, которые изучают язык как иностранный, ис-пользуется для исследований в области усвоения второго языка [Granger, 1996]. Однако достоверность содер-жащихся в корпусах данных зависит от качества разметки ошибок, которая чаще всего выполняется вручную и, таким образом, представляет собой трудоемкую и кропотливую процедуру для аннотаторов. Чтобы облег-чить процесс разметки, в корпусах используются дополнительные инструменты, в частности спеллчекеры. В данной статье основное внимание уделяется созданию системы автоматического поиска и исправления сло-вообразовательных ошибок. Этот тип ошибок, почти никогда не возникающий у взрослых носителей русского языка, но появляющийся у изучающих русский язык как иностранный [Chernigovskaya, Gor, 2000], был вы-бран потому, что их исправление вызывает большие сложности у существующих спеллчекеров. В рамках ра-боты на материале Русского учебного корпуса (Russian Learner Corpus, http://www.web-corpora.net/RLC/) было протестировано два подхода, помогающих в решении данной проблемы. Первый, который основывается на принципе конечных автоматов [Dickinson, Herring, 2008], имеет целью обнаружить морфологические наруше-ния в текстах изучающих русский как иностранный. Второй, в основе работы которого лежит модель шумного канала [Brill and Moore, 2000], обеспечивает исправление выявленных ошибок. После тестирования эффек-тивности этих двух подходов с учетом результатов их работы была предложена собственная система автокор-рекции словообразовательных ошибок. В ней используются алгоритм обнаружения морфологических ошибок из подхода Dickinson, Herring и модель Continuous Bag of Words FastText, которая основывается на теории ди-стрибутивной семантики [Harris, 1954]. В дополнение к ним вводятся правила исправления для распростра-ненных случаев словотворчества, а также словарь парадигм для приведения слова к той грамматической фор-ме, в которой было употреблено исправляемое слово. Результаты работы авторской системы были апробированы на данных Русского учебного корпуса и показали свою валидность.