?
Исследование потенциала генеративных моделей для оценивания эссе и обеспечения обратной связи
В эпоху интенсивного развития генеративных языковых моделей эти инструменты все больше используются преподавателями и студентами. Данная работа посвящена исследованию потенциала использования генеративных моделей, взаимодействующих с пользователем посредством чат-ботов ChatGPT и PerplexityAI, для оценки студенческих эссе, написанных в формате стандартизированного экзамена по английскому языку, и формулировки обратной связи по качеству студенческих работ. С учетом специфики каждого чат-бота и стандартизированных критериев оценивания были сформулированы запросы, на основании которых чат-боты выставили баллы девятнадцати эссе как в целом, так и по отдельным аспектам, а также дали обратную связь. Выставленные баллы были сопоставлены с оценкой преподавателя и друг с другом путем вычисления коэффициентов согласованности (альфа Кронбаха) и межэкспертного согласия (каппы Коэна и Флейсса). Хотя согласованность была определена как достаточная или высокая, т.е. чат-боты и преподаватель интерпретировали критерии сходным образом, межэкспертное согласие было незначительным. В результате качественного анализа выявлены особенности обратной связи от чат-ботов, такие как периодическое игнорирование инструкций в запросе, тенденция к нахождению несуществующих ошибок, выставление разных баллов одной и той же работе при последовательных запросах. Сделан вывод о том, что чат-боты могут использоваться для приблизительной оценки работ и формулировки обратной связи, но их выдача не может считаться полностью надежной и нуждается в экспертной корректировке.