Analyzing the Robustness of Vision & Language Models

A. Shirnin; Andreev N.; Potapova S.; E. Artemova

doi:10.1109/TASLP.2024.3399061

Публикации

?

Analyzing the Robustness of Vision & Language Models

IEEE/ACM Transactions on Speech and Language Processing. 2024. Vol. 32. P. 2751–2763.

Ширнин А. А., Andreev N., Potapova S., Артемова Е. Л.

We present an approach to evaluate the robustness of pre-trained vision and language (V&L) models to noise in input data. Given a source image/text, we perturb it using standard computer vision (CV) / natural language processing (NLP) techniques and feed it to a V&L model. To track performance changes, we explore the problem of visual questions answering (VQA). Overall, we utilize 5 image and 9 text perturbation techniques and probe three Transformer-based V&L models followed by a broad analysis of their behavior and a detailed comparison. We discovered several key findings regarding the performance of the models in relation to the impact of various perturbations. These discrepancies in performance can be attributed to differences in their architectures and learning objectives. Last, but not least, we perform an empirical study to assess whether the attention mechanism of V&L Transformers learns to align modalities. We hypothesize, that attention weights for related objects and words, should be on average higher than for random object/word pairs. However, our study shows that, unlike is believed for machine translation models, V&L models do not learn alignment at all or exhibit less evidence to do so. This may support the intuition that V&L Transformers overfit to either of the modalities.

Научное направление: Компьютерные науки

Язык: английский

Полный текст

DOI

Текст на другом сайте

Ключевые слова: computational modeling robustness Visualization Data models analytical models Task analysis Visual question answering transformers Attention Mechanism Black-box Interpretation Spurious Correlations

ПУБЛИКАЦИЯ ПОДГОТОВЛЕНА ПО РЕЗУЛЬТАТАМ ПРОЕКТА:

Модели и методы анализа текстовых данных, рекомендательных систем и майнинга данных (2024)

WSI-GT: Pseudo-Label Guided Graph Transformer for Whole-Slide Histology

Михайлов И. А., Machine Learning and Knowledge Extraction 2026 Vol. 8 No. 1 Article 8

Whole-slide histology images (WSIs) can exceed 100 k × 100 k pixels, making direct pixel-level segmentation infeasible and requiring patch-level classification as a practical alternative for downstream WSI segmentation. However, most approaches either treat patches independently, ignoring spatial and biological context, or rely on deep graph models prone to oversmoothing and loss of local tissue ...

Добавлено: 16 июля 2026 г.

On the construction of Barnes–Wall lattices and their application in cryptography

Кунинец А. А., Малыгина Е. С., Leevik A. G. и др., Journal of Computer Virology and Hacking Techniques 2026 No. 22 Article 62

Добавлено: 16 июля 2026 г.

Tencent и Open Source. Как относится к открытому ПО самый дорогой бренд Китая?

Силаков Д. В., Системный администратор 2026 № 5 С. 46–51

В предыдущей статье про Open Source в КНР [1] мы рассказали про Alibaba – крупную корпорацию, занимающую тридцатое место в рейтинге самых значимых мировых брэндов за 2025 год [2]. Место почетное, но не первое среди китайских компаний – на тринадцатом месте расположилась Tencent, разработчик WeChat и ряда других продуктов, широко используемых нашими восточными соседями. Tencent ...

Добавлено: 14 июля 2026 г.

2026 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)

IEEE, 2026.

Добавлено: 13 июля 2026 г.

Mathematical Optimization Theory and Operations Research, 25th International Conference, MOTOR 2026 Irkutsk, Russia, July 6–11, 2026 Proceedings

Switzerland: Springer, 2026.

Добавлено: 12 июля 2026 г.

Задачи бесконечной регулярной реализуемости

Шиманогов И. Н., Вялый М. Н., Дискретный анализ и исследование операций 2025 Т. 32 № 4(166) С. 213–230

Хорошо изученным классом алгоритмических задач являются задачи регулярной реализуемости: проверка непустоты пересечения регулярного языка с заданным языком. Данная задача имеет естественную алгебраическую интерпретацию: проверка принадлежности элемента булевой алгебры ядру определенного гомоморфизма. Это мотивирует рассмотрение аналогичной задачи бесконечной регулярной реализуемости: проверка бесконечности пересечения регулярного языка с заданным. В работе рассматриваются задачи регулярной реализуемости для разрешимых языков ...

Добавлено: 12 июля 2026 г.

Improving Differential Equation Solving in Compact Language Models via Activation Steering and Reinforcement Learning

Сурков А. Ю., Игнатенко В. В., Koltcov Sergei, Computers, Materials and Continua 2026

Добавлено: 8 июля 2026 г.

Computational Science and Its Applications – ICCSA 2026 Workshops

Springer, 2027.

Добавлено: 8 июля 2026 г.

Conference Proceedings: 2026 IEEE Ural-Siberian Conference on Biomedical Engineering, Radioelectronics and Information Technology (USBEREIT), 14-15 May 2026

IEEE, 2026.

Добавлено: 8 июля 2026 г.

Моделирование специализированных алгоритмов маршрутизации в сетях на кристалле, представленных сериями семейств циркулянтных топологий

Маликов М. А., Монахова Э. А., Рзаев Э. Р. и др., Ученые записки Казанского университета. Серия: Физико-математические науки 2026 Т. 168 № 2 С. 269–286

В качестве топологий сетей на кристалле рассмотрены серии семейств оптимальных по диаметру двумерных циркулянтных сетей с прямоугольным контуром укладки на плоскости. Прямоугольный контур укладки графа межмодульных соединений даёт возможность компоновки элементов в сетях на кристалле с минимальным количеством пересечений связей и ограниченной длиной максимальной из них, не зависящей от размера сети. Для серий семейств циркулянтных сетей с ...

Добавлено: 8 июля 2026 г.

Algorithmic overlaps as thermodynamic variables: From local to cluster Monte Carlo dynamics in critical phenomena

Пиле Я. Э., Deng Y., Щур Л. Н., Physical Review B: Condensed Matter and Materials Physics 2026 Vol. 114 No. 1 Article 014101

Добавлено: 6 июля 2026 г.

Журнал Телекоммуникации №1 за 2026

М.: Наука и технологии, 2026.

«Телекоммуникации» ежемесячный рецензируемый производственный, информационно-аналитический и учебно-методический журнал выходит в свет с июля 2000 г. Для руководителей и работников промышленности, научно-исследовательских и проектно-конструкторских институтов, высших учебных заведений, аспирантов и студентов, а также для специалистов, разрабатывающих, выпускающих и эксплуатирующих средства телекоммуникаций. Новости разработок и производства, прогнозы развития, защита информации, Нормативные, справочные, аналитические и учебно-методические материалы. Переход к глобальному информационному ...

Добавлено: 4 июля 2026 г.

"Труды МФТИ" Том 17, № 4 (68) (2025)

МФТИ, 2025.

абота редакции научного журнала «Труды Московского физико-технического института» (кратко «Труды МФТИ»), редакционной коллегии и редакционного совета осуществляется в соответствии с Положением, утвержденным ректором института. В состав редакционной коллегии входят руководители института, факультетов, институтских и факультетских кафедр. Главный редактор журнала —президент МФТИ, член-корр. РАН Кудрявцев Н.Н. Журнал «Труды МФТИ» входит в базу данных РИНЦ (Российский Индекс Научного Цитирования) и доступен в электронной ...

Добавлено: 4 июля 2026 г.

Modulation Recognition for Industrial Internet of Things Communication Signals Under Few-Shot Conditions Based on Attention Mechanism and Relation Network

Hualin M., Jie Z., Jerome Y. и др., Journal of Internet Technology 2026 Vol. 27 No. 3 P. 367–382

Добавлено: 3 июля 2026 г.

Кодовые конструкции на базе обобщенных каскадных кодов для систем связи, использующих прием на основе порядковых статистик

Осипов Д. С., Информационно-управляющие системы 2026 № 3 С. 49–62

Введение: во многих проектируемых в настоящее время и перспективных системах связи методы оценивания характеристик канала и управления мощностью сигнала, разработанные для систем связи предыдущих поколений, не могут обеспечить требуемую точность оценивания и выравнивания мощности сигналов на приемном конце. Одним из вариантов решения этой проблемы является использование методов приема на основе порядковых статистик, которые не требуют управления мощностью ...

Добавлено: 3 июля 2026 г.

Graph Games and Logic Design. Recent Developments and Further Directions. (TREN, volume 66)

Springer, 2026.

Добавлено: 30 июня 2026 г.

The 12th International Conference on Information Technology and Quantitative Management (ITQM 2025)

Netherlands: ScienceDirect, 2025.

Добавлено: 28 июня 2026 г.

Object-centric process management: A research manifesto

Seidel A., Weske M., Montali M. и др., Information Systems 2026 Vol. 141 Article 102728

Добавлено: 27 июня 2026 г.

2024 26th International Conference on Digital Signal Processing and its Applications (DSPA)

IEEE, 2024.

Добавлено: 27 июня 2026 г.

Построение методик оценки качества восприятия (QOE) потокового видео

Ивченко А. В., Дворкович А. В., Телекоммуникации 2020 Т. 12 С. 2–11

Технология Dynamic Adaptive Streaming over HTTP (DASH) обеспечивает работу большинства мультимедийных сервисов, ее особенности (повторные буферизации, переключения качества и др.) приводят к необходимости создания специализированных методик оценки пользовательского, субъективного качества восприятия Quality of Experience (QoE) на основе объективных параметров. В данной статье исследуется влияние различных метрик на QoE и приводятся модели оценки с коэффициентом корреляции ...

Добавлено: 27 июня 2026 г.

Event-Driven Platform for Machine Vision Component Integration with Operation Center

Гаджимирзаев Ш. М., Хельвас А. В., 2023 3rd International Conference on Innovative Research in Applied Science, Engineering and Technology (IRASET) Mohammedia, Morocco 2023 P. 1–6

В статье предлагается архитектура событийно-управляемого Центра экстренного реагирования с компонентом компьютерного зрения. Анализируются источники информации и обсуждаются подходы к использованию событий компьютерного зрения для обнаружения и оценки тактических ситуаций. Сообщения от компонентов компьютерного зрения преобразуются в Протокол общих оповещений (Common Alerting Protocol) и обрабатываются средой Центра управления для распознавания тактических ситуаций. ...

Добавлено: 26 июня 2026 г.

Дискретное моделирование процесса восстановительного ремонта участка дороги

Гаджимирзаев Ш. М., Хельвас А. В., Компьютерные исследования и моделирование 2022 Т. 14 № 6 С. 1255–1268

абота содержит описание результатов моделирования процесса поддержания готовности участка дорожной сети в условиях воздействия с заданными параметрами. Рассматривается одномерный участок дороги длиной до 40 км с общим количеством ударов до 100 в течение рабочей смены бригады. Разработана имитационная модель проведения работ по его поддержанию в рабочем состоянии несколькими группами (инженерными бригадами), входящими в состав инженерно-дорожного ...

Добавлено: 26 июня 2026 г.

Automated detection of wolf howls using audio spectrogram transformers

Makarov N., Савченко А. В., Zemtsova I. и др., Scientific Reports 2025 Vol. 15 Article 26641

Добавлено: 16 июня 2026 г.

Multimodal graph, surface, and language-based model for protein protein interaction prediction

Артеага Мореано Б. Д., Червов Н. Р., Попцова М. С., Scientific Reports 2026 Vol. 16 No. 1 Article 4772

Добавлено: 4 февраля 2026 г.