?
Опыт генерации оценок эмоциональной валентности и возбуждения слов на основе символьно-уровневой CNN
Эмоциональная окраска слов широко используются в различных академических и прикладных исследованиях, от анализа текстов до понимания когнитивных процессов. Актуальной задачей является создание объёмных датасетов с оценками слов по ряду эмоциональных параметров. Современные методы машинного обучения, основанные на семантической близости слов, извлекаемой из текстовых корпусов, демонстрируют высокие корреляции с человеческими оценками, однако иногда наблюдаются существенные расхождения. Можно предположить, что эмоциональные оценки людей зависят также от звукового и графического облика, культурных ассоциаций и социальных контекстов. Данное исследование ставит целью выяснить, насколько успешно можно предсказывать человеческие оценки эмоциональной валентности и возбуждения слов, опираясь исключительно на их графемные особенности, без обращения к семантике. Для решения этой задачи использовалась эмоциональные оценки из базы данных ENRuN-2, включающей 6708 русских существительных. Была разработана символьно-уровневая сверточная нейронная сеть, в качестве базовых алгоритмов сравнения применялись линейная регрессия на символьных n-граммах и перестановочный тест. Полученные результаты свидетельствуют о том, что сигналы, извлекаемые из графемных особенностей слов, существуют, но являются крайне слабыми. Это позволяет сделать вывод, что успешное предсказание эмоциональных оценок слов без учета их семантики, скорее всего, невозможно.