Глава
Deep Part-Based Generative Shape Model with Latent Variables
The Shape Boltzmann Machine (SBM) and its multilabel version MSBM have been recently introduced as deep generative models that capture the variations of an object shape. While being more flexible MSBM requires datasets with labeled parts of the objects for training. In the paper we present an algorithm for training MSBM using binary masks of objects and the seeds which approximately correspond to the locations of objects parts. The latter can be obtained from part-based detectors in an unsupervised manner. We derive a latent variable model and an EM-like training procedure for adjusting the weights of MSBM using a deep learning framework. We show that the model trained by our method outperforms SBM in the tasks related to binary shapes and is very close to the original MSBM in terms of quality of multilabel shapes.
В pаботе pассматpивается линейная pегpессионная модель. EM-алгоpитм пpедставляет собой pаспpостpаненный подход к оценке паpаметpов таких моделей на основе общего пpинципа максимизации пpавдоподобия. Известно, что этот метод оценки паpаметpов является pобастным, если ошибки независимы, одинаково pаспpеделены и имеют многомеpное t-pаспpеделение. В пpедыдущих pаботах такой подход к оценке паpаметpов pегpессионных моделей пpименялся лишь пpи условии, что ошибки имеют многомеpное t-pаспpеделение с числовым паpаметpом степеней свободы. В настоящей pаботе pассматpивается более общая ситуация, когда ошибки могут иметь многомеpное t-pаспpеделение с вектоpным паpаметpом степеней свободы. Ненаблюдаемые величины в EM-алгоpитме пpи этом оказываются случайными матpицами. На численных пpимеpах пpи pазличных pаспpеделениях ошибок исследованы пpеимущества такого подхода по сpавнению с методом наименьших квадpатов.
Статья посвящена истории и проблемам создания интерфейсов. Показаны сложность и важность создания эффективных интерфейсов, отмечено, что эта задача является системной многоуровневой междисциплинарной. В новых системах должно быть отведено самое серьезное внимание решению вопросов повышения эффективности человеческого звена. Человек по-прежнему является ведущим элементом, определяющим эффективность работы любой эргатической системы. Основным средством управления в эргатических системах, включающих компьютеры, является графический манипулятор (ГМ), с помощью которого происходит управление экранными органами управления. Известно, что эргатическая система – это схема производства и эксплуатации технических систем и комплексов, одним из элементов которой является человек или группа людей, а также средства вычислений и анализа баз данных. Исследование поведения эргатических систем включающем в своем составе большое количество компьютеров, принимающих решение на основе анализа баз данных имеет важное значение для решения научных и прикладных задач возникающих при производстве и эксплуатации авиакосмических комплексов, а также рекомендации для экипажей летательных аппаратов. Указаны основные стили пользовательского интерфейса. Самыми популярными являются GUI-интерфейсы (GUI – GraphicalUserInterface) и построенные на их основе WUI-интерфейсы (WUI – WebUserInterface). Развитие техники и технологий компьютерного моделирования ведут к активному внедрению технологий виртуальной реальности, обеспечивающих включение человека в искусственные миры. Основная их особенность – полная управляемость всеми параметрами со стороны разработчиков и появление чувства присутствия у лиц находящихся в данных средах, которые называются иммерсивными. Технологии индуцированных сред позволяют получить ряд новых, не применявшихся по настоящее время, видов интерфейсов, использующих специально проектируемые виртуальные среды. Большое внимание уделено созданию самых совершенных систем – систем бесконтактного управления, которые представляют собой камеру и сложное программное обеспечение. Указаны недостатки современных бесконтактных систем управления. В настоящее время ведутся разработки по созданию бесконтактного интеллектуального интерфейса, который позволит: осуществлять управление с помощью данных, поступающих с одной видеокамеры, которая установлена на компьютере; обладать высокой помехоустойчивостью; четко идентифицировать пользователя; распознавать ситуационную обстановку; обладать приемлемой стоимостью.
В сборнике представлены тезисы докладов 12-й Международной конференции "Интеллектуализация обработки информации", проводимой Российской академией наук, Федеральным исследовательским центром "Информатика и управление" РАН, Научно-координационный центром "Цифровые методы интеллектуального анализа данных". Конференция проводится с 1989 г., начиная с 2000 г. - регулярно один раз в два года, и является представительным научным форумом в области интеллектуального анализа данных, машинного обучения, распознавания образов, анализа изображений, обработки сигналов, дискретного анализа. Организационный комитет ИОИ-2018 выражает особую благодарность компаниям Форексис и ЦСПиР, оказавшим неоценимую помощь при подготовке и проведении конференции. Конференция поддержана грантом РФФИ 18-07-20075. Сайт конференции http://mmro.ru.