?
Поможет ли Байесовская сыворотка правды повысить достоверность разметки эмоциональных текстов? (case study)
В статье рассматриваются результаты применения методологии, известной как Байесовская сыворотка правды (BTS), в задаче эмоциональной разметки текстов для последующего обучения нейросетевых моделей. Суть метода состоит в том, что информантов сначала просят оценить некоторый феномен со своей собственной точки зрения, а затем – предсказать, какой ответ (или оценку) выберет наибольший процент других отвечающих на тот же опросник. Мы применили данную методологию для оценки 120 разметчиками 300 эмоциональных текстов, извлеченных из группы «Подслушано» в ВКонтакте, где они имели эмоциональные хэштеги. В основе дизайна разметки лежала PAD-модель Рассела-Мехрабиана. При обработке результатов сравнивались средние значения стандартного отклонения в личных и предсказанных оценках по каждой из трех шкал модели. Сформировав подкорпусы текстов с наибольшей рассогласованностью личной и предсказанной оценок, мы проанализировали их, выявив частотные слова для каждого из подкорпусов. Получены следующие выводы: 1) разброс личных оценок и предсказанных оценок в собранном датасете не имеет статистически значимых отличий; 2) в подкорпусы текстов с наибольшим расхождением личной и предсказанной эмоциональной оценки попадают тексты, посвященные трем типам социальных ситуаций: взаимоотношения внутри пары, отношения мать − ребенок, а также девиантное поведение, подвергающее риску безопасность семьи и других членов социума; 3) наибольшее число текстов, в которых наблюдается значимое расхождение оценок, маркированы хештегами, связанными с эмоциями страха, отвращения, удивления, воодушевления и грусти.