Детекция и нейросети: чему учит новый онлайн-курс ВШЭ по компьютерному зрению
Сегодня компьютерное зрение (Computer Vision, CV) активно используется в бизнес-среде для анализа изображений и видео. Как эта область искусственного интеллекта меняет наш взгляд на мир и расширяет карьерные возможности, рассказывают приглашенные преподаватели факультета компьютерных наук, соавторы нового онлайн-курса Вышки «Компьютерное зрение» Антон Лебедев и Артем Филатов. Курс представлен на Национальной платформе «Открытое образование».
Системы CV, которые включают фото- и видеокамеры и специальное программное обеспечение, умеют анализировать любые образы: картинки, фотографии, видео, а также лица и эмоции. Чтобы научить компьютер «видеть», специалисты применяют технологии машинного обучения.
Вышка уделяет теме компьютерного зрения особое внимание. В сентябре прошел первый набор на англоязычную онлайн-магистратуру «Master of Computer Vision», а в январе 2022 года на Национальной платформе «Открытое образование» стартовал курс «Компьютерное зрение» — симбиоз теоретической базы и практических кейсов. Слушатели курса научатся решать основные задачи, которые стоят перед CV-специалистами.
Антон Лебедев, Chief Data Scientist в стартапе Neatsy (мобильное приложение с 3D-сканером стопы для подбора кроссовок), объяснил, с какими продвинутыми задачами помогают справиться нейронные сети и чему научатся слушатели курса.
— Антон, какие цели преследует курс?
— Мы рассказываем о методах, позволяющих машинам видеть так, как видит человек. Это нетривиальный вопрос, потому что для нас, в отличие от компьютеров, зрение естественно: мы не рассуждаем об изображениях как о наборе цифр. Мы сразу видим объекты, мгновенно понимаем, что они представляют собой. Цель компьютерного зрения — научить машины делать так же, научить их справляться с кейсами не хуже человека.
В курсе будет рассказано о самых популярных задачах и методах компьютерного зрения — от создания фотоэффектов до восстановления 3D-сцены по набору изображений.
— Как строится обучение?
— Каждая неделя курса содержит теоретическую и практическую части. Практика выполняется с помощью языка программирования Python и позволяет научиться применять полученные теоретические знания в реальной жизни. Для прохождения курса необходимо «говорить» на Python и знать основы машинного обучения.
Мы начнем с азов. Будем учиться попиксельной обработке изображений: поймем, как устроено изображение с точки зрения программ, построим несколько несложных методов. Опираясь на полученные знания, мы будем усложнять алгоритмы и создавать версии со способностью вычленять все более абстрактную информацию. Мы будем двигаться от поиска границ объектов к классификации, детекции, восстановлению 3D-форм и многому другому. Все разобранные задачи будут сопровождаться практикой для лучшего закрепления изученных методов.
— В курсе уделяется внимание поведению нейронных сетей. О чем именно пойдет речь?
— Нейронные сети — мощный инструмент машинного обучения, и они, безусловно, присутствуют в компьютерном зрении. Есть даже определение «классическое компьютерное зрение» — под ним понимают методы без применения нейронных сетей. В этом курсе внимание уделяется и классике, и новейшим методикам. Конкретно про нейронные сети мы расскажем как для классических задач (классификация, сегментация, детекция), так и для более продвинутых. Речь идет о GAN, сегментации в облаках точек и переносе стиля.
Не так давно был прорыв в компьютерном зрении, связанный с появлением сверточных нейронных сетей. C тех пор развитие не останавливается, буквально каждую неделю появляются новые подходы. Даже сверточные сети как лучшее решение ставятся под сомнение в пользу методов, заимствованных из обработки текстов, трансформеров. Вектор развития CV в последнее время направлен в сторону работы в смежных областях. Например, компьютерное зрение используется для создания текстового описания по изображению, и наоборот, или для шумоподавления звука по видео и пр.
Артем Филатов занимался зрением беспилотных автомобилей, а с недавних пор перешел в VR-подразделение «Яндекса». Он рассказал, какие треки открываются перед новичками в сфере компьютерного зрения.
— Артем, насколько дефицитны CV-специалисты в России?
— Дефицит кадров, безусловно, присутствует: непросто найти разработчиков в области компьютерного зрения. Большое количество CV-приложений в индустрии приводит к возникновению спроса на специалистов, который российский рынок труда не удовлетворяет. Самые перспективные сейчас области, на мой взгляд, — это AR/VR-приложения, беспилотные автомобили. В медицине очень востребованы CV-специалисты, потому что данные, с которыми приходится часто работать, — это либо 2D-изображения, либо 3D-снимки человека.
На самом деле способов применить компьютерное зрение огромное множество. Можно выбрать область, которая интересна именно тебе: пойти в аспирантуру и заниматься исследованиями в университетах или развиваться в индустрии. Позиция на старте зависит от уровня компетенций, знаний, способности решать новые задачи. Далее вы можете развиваться как специалист, брать на себя новые проекты и большую ответственность. Достаточный уровень технической компетенции и лидерских качеств открывает путь в управление командой. Перспективы роста зависят от конкретной компании, где-то их может просто не быть.
— В каком направлении развивается индустрия компьютерного зрения?
— Десять лет назад был бум задач распознавания. Сейчас эти задачи хорошо научились решать, и они пришли в бизнес в виде различных приложений. На данный момент прогресс там идет, но он уже не так сильно влияет на область в целом. Фокус CV переключился на 3D-реконструкцию и рендеринг. В этих темах уже произошли большие прорывы, которые потенциально приведут за собой большое количество приложений в AR/VR, компьютерных играх, кинопроизводстве и т.д.
— Чем курс может быть полезен студентам непрофильных дисциплин?
— Он позволит разобраться в том, какие CV-задачи способны сейчас решать машины. Возможно, студенты смогут увидеть способы применить эти алгоритмы в своих сферах.
Онлайн-курс рассказывает о математической модели камеры и способах восстановить глубину и сцену по изображениям. Лекции обучают основам графики и инструментам машинного обучения, анализа 3D-объектов в сцене. В результате студенты смогут научить компьютер понимать, что представлено на фотографии, а также обрабатывать изображения при помощи языков программирования.
Материал подготовила Екатерина Зиньковская, Дирекция по онлайн-обучению НИУ ВШЭ