?
Correcting or Rewriting? An Expert Evaluation of LLM-Based GEC on Academic Learner Data
Данная статья посвящена исследованию того, как большие языковые модели исправляют сложные
грамматические ошибки в академических учебных текстах на русском языке. В отличие от традиционныхGEC-систем, которые руководствуются принципом минимального исправления, большие языковые модели(LLM) часто применяют генеративные стратегии переписывания, которые могут улучшить восприятие
текста, однако появляется риск гиперкоррекции структуры и семантических изменений. Мы представляем
новый экспертный бенчмарк, основанный на русском учебном корпусе из 3,1 млн слов, и создаем оценочную
систему, аннотированную по типу ошибки и сложности.Мы предлагаем систему оценивания, основанную на экспертных суждениях и сочетающую в себе
количественный анализ, исследование изменения структуры и слепое попарное сравнение. Результаты
выявляют баланс между минимальными исправлениями и генеративным подходом LLM. Это оказывает
прямое влияние на оценивание, так как референсные метрики могут недооценивать структурную
гиперкоррекцию и не учитывать разницу в подходах к исправлению.