?
Применение методов машинного обучения для классификации контента коррупционной тематики в русскоязычных и англоязычных Интернет-СМИ
В статье предпринята попытка классификации коррупционного медиаконтента русскоязычных и англоязычных интернет-СМИ с помощью методов машинного обучения. Данный методологический аспект является весьма актуальным и перспективным, поскольку, согласно полученным нами ранее данным, используемые в зарубежных публикациях механизмы коррупционного мониторинга, основанные на использовании передовых информационных технологий, обладают неоднозначной потенциальной эффективностью и не всегда адекватно интерпретируются. В работе показаны принципы и основания для выделения идентификационных параметров, а также подробно описана схема разметки собранного новостного массива. В ходе автоматической обработки текстов, проходившей в два этапа (векторизация текста и использование модели обучения), удалось решить 4 основные задачи: выделение значимой цитаты из новостной статьи для идентификации текста коррупционной тематики; предсказание типа новостного сообщения; предсказание статьи УК РФ, по которой определяется ответственность за описанное коррупционное правонарушение, а также предсказание типа взаимоотношений в коррупционных правонарушениях. Полученные результаты продемонстрировали, что современные методы автоматической обработки текстов успешно справляются с идентификацией и классификацией коррупционного контента как на русском, так и на английском языках.