Глава
Group-Level Emotion Recognition using Transfer Learning from Face Identification
The paper deals with unconstrained face recognition task for the small sample size problem based on computation of distances between high-dimensional off-the-shelf features extracted by deep convolution neural network. We present the novel statistical recognition method, which maximizes the likelihood (joint probabilistic density) of the distances to all reference images from the gallery set. This likelihood is estimated with the known asymptotically normal distribution of the Kullback–Leibler discrimination between nonnegative features. Our approach penalizes the individuals if their feature vectors do not behave like the features of observed image in the space of dissimilarities of the gallery images. We provide the experimental study with the LFW (Labeled Faces in the Wild), YTF (YouTube Faces) and IJB-A (IARPA Janus Benchmark A) datasets and the state-of-the-art deep learning-based feature extractors (VGG-Face, VGGFace2, ResFace-101, CenterFace and Light CNN). It is demonstrated, that the proposed approach can be applied with traditional distances in order to increase accuracy in 0.3–5.5% when compared to known methods, especially if the training and testing images are significantly different.
Исследована задача распознавания изображений, которые описываются векторами признаков высокой размерности, выделенными с помощью глубокой свёрточной нейронной сети и анализа главных компонент. Рассмотрена проблема высокой вычислительной сложности статистического подхода с непараметрическими оценками плотности вероятности векторов признаков, реализованного в вероятностной нейронной сети. Предложен новый метод статистической классификации на основе проекционных оценок плотности распределения с тригонометрической системой ортогональных функций. Показано, что такой подход позволяет преодолеть недостатки вероятностной нейронной сети, связанные с необходимостью обработки всех признаков всех эталонных изображений. В рамках экспериментального исследования для наборов изображений Caltech-101 и CASIA WebFaces показано, что предлагаемый подход позволяет на 1-5% снизить вероятность ошибки распознавания и в 1,5-6 раз повысить вычислительную эффективность по сравнению с исходной вероятностной нейронной сетью для малых выборок эталонных изображений.
Исследуется задача определения интересов пользователей для рекомендательных систем на основе набора фотографий заказанных или просмотренных ранее товаров. Исследованы нейросетевые методы агрегации векторов признаков изображений, извлеченных с помощью глубоких нейронных сетей. Предложен новый двухэтапный алгоритм, в котором на первом этапе происходит дообучение сверточной нейронной сети, а на втором этапе при помощи последовательного применения методов агрегации neural aggregation network и context gating вычисляется взвешенная сумма векторов признаков всех изображений товаров, ассоциированных с одним пользователем. Экспериментальное исследование для набора данных Amazon Products показало, что F1-мера предложенного подхода оказывается более чем на 20% выше F1-меры традиционного усреднения векторов признаков.
Рассматривается задача организации информации в системах видеонаблюдения с помощью автоматического выделения групп треков, так, что каждая группа содержит изображения лица только одного человека. Исследованы методы агрегации векторов признаков каждого кадра, извлекаемых с помощью глубокой сверточной нейронной сети. Треки, содержащие одинаковые лица, группируются с использованием методов верификации лиц и алгоритмов последовательной кластеризации. В экспериментальном исследовании с набором данных YouTubeFaces рассматриваются несколько способов объединения отдельных кадров для получения дескриптора видеодорожки. Показано, что наиболее высокую точность показывает сравнение нормализованных признаков, полученных с помощью усреднения векторов признаков всех кадров каждого трека.