Глава
Emotion Recognition of a Group of People in Video Analytics Using Deep Off-the-Shelf Image Embeddings
The article is devoted to pattern recognition task with the database containing small number of samples per class. By mapping of local continuous feature vectors to a discrete range, this problem is reduced to statistical classification of a set of discrete finite patterns. It is demonstrated that Bayesian decision under the assumption that probability distributions can be estimated using the Parzen kernel and the Gaussian window with a fixed variance for all the classes, implemented in the PNN, is not optimal in the classification of a set of patterns. We presented here the novel modification of the PNN with homogeneity testing which gives an optimal solution of the latter task under the same assumption about probability densities. By exploiting the discrete nature of patterns our modification prevents the well-known drawbacks of the memory-based approach implemented in both the PNN and the PNN with homogeneity testing, namely, low classification speed and high requirements to the memory usage. Our modification only requires the storage and processing of the histograms of input and training samples. We present the results of an experimental study in two practically important tasks: 1) the problem of Russian text authorship attribution with character n-grams features; and 2) face recognition with well-known datasets (AT&T, FERET and JAFFE) and comparison of color- and gradient-orientation histograms. Our results support the statement that the proposed network provides better accuracy (1-7%) and is much more resistant to change of the smoothing parameter of Gaussian kernel function in comparison with the original PNN.
Исследуется задача определения интересов пользователей для рекомендательных систем на основе набора фотографий заказанных или просмотренных ранее товаров. Исследованы нейросетевые методы агрегации векторов признаков изображений, извлеченных с помощью глубоких нейронных сетей. Предложен новый двухэтапный алгоритм, в котором на первом этапе происходит дообучение сверточной нейронной сети, а на втором этапе при помощи последовательного применения методов агрегации neural aggregation network и context gating вычисляется взвешенная сумма векторов признаков всех изображений товаров, ассоциированных с одним пользователем. Экспериментальное исследование для набора данных Amazon Products показало, что F1-мера предложенного подхода оказывается более чем на 20% выше F1-меры традиционного усреднения векторов признаков.
В работе рассмотрены основные алгоритмы и их программная реализация на платформе Silverlight 4, которые могут применяться для переноса в режим дистанционного обучения систем обучения языку программ "Профессор Хиггинс" компании "ИстраСофт".
Предложено использование вероятностной нейронной сети с проверкой однородности в задаче распознавания изображений. Показано, что это решение является оптимальным в байесовском смысле, если задача рассматривается в терминах статистической проверки однородности выборок признаков входного и эталонных изображений. Рассматривается проблема недостаточной вычислительной эффективности оптимального алгоритма при наличии многих альтернативных классов и большой размерности признакового пространства. Исследуется возможность её преодоления для случая дискретных признаков путём синтеза нового критерия, основанного на сопоставлении гистограмм признаков входного и эталонных изображений. Показано, что частным случаем такого критерия является правило ближайшего соседа с популярными мерами близости хи-квадрат и Йенсена-Шеннона. Приведены результаты экспериментального исследования в задаче идентификации личности по фотографии лица для популярных баз данных AT&T и JAFFE. Продемонстрировано, что предложенный подход существенно превосходит по качеству традиционное решение, основанное на сведении распознавания к задаче статистической классификации
Рассматривается задача организации информации в системах видеонаблюдения с помощью автоматического выделения групп треков, так, что каждая группа содержит изображения лица только одного человека. Исследованы методы агрегации векторов признаков каждого кадра, извлекаемых с помощью глубокой сверточной нейронной сети. Треки, содержащие одинаковые лица, группируются с использованием методов верификации лиц и алгоритмов последовательной кластеризации. В экспериментальном исследовании с набором данных YouTubeFaces рассматриваются несколько способов объединения отдельных кадров для получения дескриптора видеодорожки. Показано, что наиболее высокую точность показывает сравнение нормализованных признаков, полученных с помощью усреднения векторов признаков всех кадров каждого трека.