?
Evaluating the Pragmatic Competence of Large Language Models in Detecting Mitigated and Unmitigated Types of Disagreement
В настоящем исследовании представлена методика оценки эффективности больших языковых моделей (БЯМ) в области выявления несогласия, включая широкий диапазон стратегий его выражения — от смягченных форм до явной вербальной агрессии. Особое внимание уделяется сложным случаям имплицитных проявлений иронии и сарказма, представляющим значительные трудности как для автоматического анализа, так и для межличностного общения. Экспериментальное тестирование БЯМ проводилось в двух типах задач: бинарная классификация для идентификации несогласия и классификация конкретных стратегий его выражения. Результаты показали, что большие мультиязычные модели демонстрируют преимущество над другими моделями, особенно в рамках бинарной классификации. Тем не менее БЯМ, ориентированные преимущественно на русский язык, например, GigaChat и YaGPT, склонны более точно интерпретировать иронию и сарказм и характеризуются более высокой плотностью результатов. Сравнительный анализ с оценками ассесоров показал, что несмотря на достигнутый прогресс, точность определения сарказма у БЯМ по-прежнему существенно уступает человеческим оценкам. Результаты исследования указывают на необходимость дальнейшей оптимизации БЯМ для повышения их прагматической компетенции в реальных коммуникативных ситуациях