?
Сравнение методов автоматической разметки речевых формул в русскоязычном интернет-дискурсе: пилотное исследование
Настоящее исследование посвящено разработке и сравнению методов автоматической разметки речевых формул в корпусе русскоязычных интернет-комментариев. Речевые формулы представляют собой класс устойчивых неоднословных единиц, выражающих эмоциональную реакцию в диалоге. Материалом исследования послужил корпус из 10 000 комментариев (157 261 токен), собранных из пяти Telegram-каналов. Формальный поиск по словнику из 437 единиц дал точность (precision) 21%. Для повышения точности были разработаны три метода: классификация с помощью Random Forest (точность 56%), синтаксическая фильтрация на основе dependency parsing (точность 73,3%, полнота 8,7%) и фильтрация по пунктуационному оформлению (точность 76,4%, полнота 74,0%). Анализ показал, что синтаксические парсеры систематически ошибаются при обработке междометных единиц: 68,5% истинных речевых формул получили метку advmod вместо корректной ROOT. Метод пунктуационной фильтрации показал лучший результат, повысив точность в 3,64 раза относительно формального поиска, служившего baseline. Ключевой вывод исследования заключается в том, что для лингвистических явлений с четкими формальными маркерами простые rule-based методы могут превосходить машинное обучение, особенно при ограниченном объёме размеченных данных.