?
Ансамбль современных моделей компьютерного зрения для задачи обнаружения дипфейков
Исследуется возможность применения современных архитектур компьютерного зрения для задачи обнаружения дипфейков. Рассматриваются следующие архитектуры: EfficientNet, Vision Transformer (ViT), VisionLSTM (ViL), VisionKAN и Mamba Vision. Новизна подхода заключается в применении и сравнении работы данных архитектур, а также в их объединении в парные ансамбли для повышения точности детекции дипфейков. В работе проведен эксперимент, основанный на применении нескольких архитектур для обработки изображений. Каждая архитектура применяется как отдельно, так и в составе ансамбля, состоящего из двух моделей. Набор данных для эксперимента был сформирован из фреймов видео с дипфейками. Полученные фреймы были подвержены различным аугментациям. Результаты экспериментов показали, что применение ансамблей современных архитектур повышает точность распознавания дипфейков. Ансамбль ViT и VisionLSTM показал -меру 97,68%, что выше, чем применение данных архитектур по отдельности. Однако не все ансамбли привели к улучшению показателей. Например, комбинация Mamba Vision и VisionLSTM продемонстрировала снижение -меры до 95,78% в сравнении с использованием Mamba Vision в одиночку. Результаты исследования полезны для специалистов, работающих в области компьютерного зрения, кибербезопасности и анализа мультимедийного контента. Применение предложенных архитектур и их ансамблей может быть эффективно в задачах по обнаружению дипфейков и других форм поддельного контента, что важно для защиты от информационных угроз.