• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • A
  • A
  • A
  • A
  • A
Обычная версия сайта
  • RU
  • EN
  • Национальный исследовательский университет «Высшая школа экономики»
  • Публикации ВШЭ
  • Статьи
  • Обзор выпуклой оптимизации марковских процессов принятия решений
  • RU
  • EN
Расширенный поиск
Высшая школа экономики
Национальный исследовательский университет
Приоритетные направления
  • бизнес-информатика
  • государственное и муниципальное управление
  • гуманитарные науки
  • инженерные науки
  • компьютерно-математическое
  • математика
  • менеджмент
  • право
  • социология
  • экономика
по году
  • 2027
  • 2026
  • 2025
  • 2024
  • 2023
  • 2022
  • 2021
  • 2020
  • 2019
  • 2018
  • 2017
  • 2016
  • 2015
  • 2014
  • 2013
  • 2012
  • 2011
  • 2010
  • 2009
  • 2008
  • 2007
  • 2006
  • 2005
  • 2004
  • 2003
  • 2002
  • 2001
  • 2000
  • 1999
  • 1998
  • 1997
  • 1996
  • 1995
  • 1994
  • 1993
  • 1992
  • 1991
  • 1990
  • 1989
  • 1988
  • 1987
  • 1986
  • 1985
  • 1984
  • 1983
  • 1982
  • 1981
  • 1980
  • 1979
  • 1978
  • 1977
  • 1976
  • 1975
  • 1974
  • 1973
  • 1972
  • 1971
  • 1970
  • 1969
  • 1968
  • 1967
  • 1966
  • 1965
  • 1964
  • 1963
  • 1958
  • еще
Тематика
Новости
28 мая 2026 г.
«Мне нравятся самосбывающиеся пророчества»
Андрей Ворчик изучает счастье, читает научпоп-лекции и хочет, чтобы наука занималась в том числе общественными проблемами. В интервью проекту «Молодые ученые Вышки» он рассказал о том, как эмоции влияют на принятие решений, Бермудском треугольнике из ванной, холодильника и кровати и идеальной формуле образования.
28 мая 2026 г.
Карманные деньги, интерес и семья: что влияет на экономическую грамотность студентов
Экономическая грамотность студентов зависит не только от профильного образования, но и от интереса к экономике, учебной среды и финансовых практик в семье. Так, студенты, получавшие карманные деньги нерегулярно, в среднем лучше справляются с тестами по экономической грамотности, чем их сверстники с постоянной финансовой поддержкой. Это показало исследование НИУ ВШЭ на выборке более 1100 студентов из пяти российских университетов. Результаты работы опубликованы в журнале Cakrawala Pendidikan.
27 мая 2026 г.
Нейросетевое отображение как метод создания математических моделей
Ученые НИУ ВШЭ в Нижнем Новгороде и Белградского института физики (Сербия) совместно изучают возможности применения методов машинного обучения и использования нейросетей в исследованиях нелинейной динамики. О международном проекте «Вышке.Главное» рассказала его руководитель от ВШЭ, ведущий научный сотрудник Лаборатории топологических методов в динамике факультета информатики, математики и компьютерных наук НИУ ВШЭ в Нижнем Новгороде Наталия Станкевич.

 

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!

Публикации
  • Книги
  • Статьи
  • Главы в книгах
  • Препринты
  • Верификация публикаций
  • Расширенный поиск
  • Правила использования материалов
  • Наука в ВШЭ

?

Обзор выпуклой оптимизации марковских процессов принятия решений

Компьютерные исследования и моделирование. 2023. Т. 15. № 2. С. 329–353.
Руденко В. Д., Юдин Н. Е., Васин А. А.

В данной статье проведен обзор как исторических достижений, так и современных результатов в области марковских процессов принятия решений (Markov Decision Process, MDP) и выпуклой оптимизации. Данный обзор является первой попыткой освещения на русском языке области обучения с подкреплением в контексте выпуклой оптимизации. Рассматриваются фундаментальное уравнение Беллмана и построенные на его основе критерии оптимальности политики — стратегии, принимающие решение по известному состоянию среды на данный момент. Также рассмотрены основные итеративные алгоритмы оптимизации политики, построенные на решении уравнений Беллмана. Важным разделом данной статьи стало рассмотрение альтернативы к подходу QQ-обучения — метода прямой максимизации средней награды агента для избранной стратегии от взаимодействия со средой. Таким образом, решение данной задачи выпуклой оптимизации представимо в виде задачи линейного программирования. В работе демонстрируется, как аппарат выпуклой оптимизации применяется для решения задачи обучения с подкреплением (Reinforcement Learning, RL). В частности, показано, как понятие сильной двойственности позволяет естественно модифицировать постановку задачи RL, показывая эквивалентность между максимизацией награды агента и поиском его оптимальной стратегии. В работе также рассматривается вопрос сложности оптимизации MDP относительно количества троек «состояние–действие–награда», получаемых в результате взаимодействия со средой. Представлены оптимальные границы сложности решения MDP в случае эргодического процесса с бесконечным горизонтом, а также в случае нестационарного процесса с конечным горизонтом, который можно перезапускать несколько раз подряд или сразу запускать параллельно в нескольких потоках. Также в обзоре рассмотрены последние результаты по уменьшению зазора нижней и верхней оценки сложности оптимизации MDP с усредненным вознаграждением (Averaged MDP, AMDP). В заключение рассматриваются вещественнозначная параметризация политики агента и класс градиентных методов оптимизации через максимизацию QQ-функции ценности. В частности, представлен специальный класс MDP с ограничениями на ценность политики (Constrained Markov Decision Process, CMDP), для которых предложен общий прямодвойственный подход к оптимизации, обладающий сильной двойственностью.

Научное направление: Математика Компьютерные науки
Язык: русский
Полный текст
DOI
Текст на другом сайте
Ключевые слова: линейное программированиеlinear programmingвыпуклая оптимизацияQ-Learningconvex optimizationMDPpolicy gradient methodsMDPQ-обучениеметоды градиента политики
Похожие публикации
The recognition-by-components method
Мыльников Л. А., Slivnitsin P., Engineering Applications of Artificial Intelligence 2026 Vol. 179 Article 115185
Добавлено: 29 мая 2026 г.
Electrical networks and data analysis in phylogenetics
Gorbounov Vassily, Kazakov A., Data Analytics and Topology 2025 Vol. 1 No. 1 P. 33–45
Добавлено: 28 мая 2026 г.
Brain-Computer Interfaces for Gait Rehabilitation After Stroke A Scoping Review
Мокиенко О. А., Zisman M. A., Бобров П. Д. и др., American Journal of Physical Medicine and Rehabilitation 2026 Vol. 105 No. 6 P. 555–563
Добавлено: 28 мая 2026 г.
ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ И ТЕХНИЧЕСКИЕ СРЕДСТВА УПРАВЛЕНИЯ (ICCT-2024)
М.: Институт проблем управления им. В.А. Трапезникова РАН, 2024.
В сборник вошли материалы VIII Международной научной конференции «Информационные технологии и технические средства управления» (ICCT-2024). На конференции были рассмотрены вопросы, касающиеся перспектив развития научного приборостроения в телекоммуникационных и управляющих системах, биомедицинской информатики, аппаратного и программного обеспечения информационнокоммуникационных систем, надежности, диагностики и неразрушающего контроля, систем управления и автоматизации, цифровых экосистем, управления производством и логистикой, методов математического ...
Добавлено: 27 мая 2026 г.
Non-linear in-band interference cancellation on base of conjugate gradients method
Degtyarev A., Bakhurin S., Юдин Н. Е., DSPA 2026 P. 1–6
Добавлено: 26 мая 2026 г.
28th European Conference on Artificial Intelligence, 25-30 October 2025, Bologna, Italy – Including 14th Conference on Prestigious Applications of Intelligent Systems (PAIS 2025)
IOS Press, 2025.
Добавлено: 26 мая 2026 г.
New Numerical Invariants of an Unfolding of a Polycycle “Tears of the Heart”
Ильяшенко Ю. С., Шилин И. С., Stanislav Minkov, Russian Journal of Mathematical Physics 2026 Vol. 33 No. 1 P. 89–106
Добавлено: 26 мая 2026 г.
Comparative Study of Training Methods and Architectures of Echo State Networks
Андросов И. А., Proceedings of the Institute for System Programming of the RAS 2026 Vol. 38 No. 3 P. 87–114
В работе рассматриваются сети эхо-состояний (Echo State Network, ESN), которые являются одними из самых распространенных способов реализации резервуарных вычислений. Они состоят из рекуррентной нейронной сети, веса которой выбираются один раз и не обучаются, и выходного, обычно линейного, обучаемого слоя. Такой подход позволяет создавать энергоэффективные и быстрые нейронные сети, способные обучаться в режиме реального времени. Но ...
Добавлено: 26 мая 2026 г.
ADDITIVE AUTOMORPHISMS OF REGULAR MATRIX GRAPH
Гусев И. И., Максаев А. М., Промыслов В. В., Journal of Mathematical Sciences 2025 Vol. 299 No. 6
Добавлено: 25 мая 2026 г.
Рефакторинг исходного кода на основе LLM и расширения UML
Караваева Е. А., Кулигин Л. А., Резуник Л. и др., Труды Института системного программирования РАН 2026 Т. 38 № 3 С. 67–94
В статье представлен метод рефакторинга исходного кода на основе интеграции большой языковой модели (LLM) и расширенной UML-модели программного кода. Предложенный подход позволяет выявлять проблемные участки кода с использованием функций тревожности и структурных метрик классов, а затем выполнять автоматизированный рефакторинг. Ключевой особенностью метода является использование LLM для генерации формальных спецификаций на языке OCL (Object Constraint Language), ...
Добавлено: 24 мая 2026 г.
Coping with AI errors with provable guarantees
Tyukin I., Тюкина Т. А., van Helden D. P. и др., Information Sciences 2024 Vol. 678 Article 120856
Добавлено: 23 мая 2026 г.
Overcoming the Curse of Dimensionality with Synolitic AI
Zaikin A., Sviridov I., Sosedka A. и др., Technologies 2026 Vol. 14 No. 2 Article 84
Добавлено: 23 мая 2026 г.
Stable On-the-Fly Learning for Dynamic Neural Networks With Delayed Inputs
Chertopolokhov V., Mukhamedov A., Bugriy G. и др., IEEE Access 2026 Vol. 14 P. 14369–14392
Добавлено: 22 мая 2026 г.
Analysis of the alternating minimization method for low-rank canonical polyadic decomposition in the Chebyshev norm
Морозов С. В., Calcolo 2026 Vol. 63 No. 2 Article 23
Добавлено: 22 мая 2026 г.
Опыт применения сетевого анализа (SNA) в историческом нарративе полисубъектного региона (на примере валлийской хроники Brut y Tywysogyon)
Лошкарева М. Е., Матвеева Н. Н., Вестник Томского государственного университета. История 2026 № 100 С. 112–118
Предпринята попытка применения сетевого анализа в изучении средневекового нарративного источ ника. Цель исследования – проверка гипотезы о политической фрагментарности как основной причины завоевания Уэльса Англией. Построены сети взаимодействий исторических лиц на основе данных валлийской Хроники принцев с 1193 по 1282 г. Построение сетей демонстрирует, что завоевано Англией было формально объеди ненное княжество, ослабляемое не столько ...
Добавлено: 22 мая 2026 г.
On Linear Convergence in Smooth Convex-Concave Bilinearly-Coupled Saddle-Point Optimization: Lower Bounds and Optimal Algorithms
Бородич Е. Д., Гасников А. В., Kovalev D., , in: Volume 267: International Conference on Machine Learning, 13-19 July 2025, Vancouver Convention Center, Vancouver, CanadaVol. 267.: [б.и.], 2025. P. 5045–5100.
Добавлено: 18 ноября 2025 г.
On the problem of optimal fair exchange
Колесников А. В., Попова С. Н., / Series arXiv "math". 2024.
Добавлено: 20 декабря 2024 г.
Solving Convex Min-Min Problems with Smoothness and Strong Convexity in One Group of Variables and Low Dimension in the Other
Гладин Е. Л., Алкуса М., Гасников А. В., Automation and Remote Control 2021 Vol. 82 P. 1679–1691
Добавлено: 29 ноября 2024 г.
Vaidya’s method for convex stochastic optimization problems in small dimension
Гладин Е. Л., Гасников А. В., Ermakova E., Mathematical notes 2022 Vol. 112 No. 1 P. 183–190
Добавлено: 29 ноября 2024 г.
Accuracy Certificates for Convex Minimization with Inexact Oracle
Гладин Е. Л., Гасников А. В., Двуреченский П. Е., Journal of Optimization Theory and Applications 2025 Vol. 204 No. 1 Article 1
Accuracy certificates for convex minimization problems allow for online verification of the accuracy of approximate solutions and provide a theoretically valid online stopping criterion. When solving the Lagrange dual problem, accuracy certificates produce a simple way to recover an approximate primal solution and estimate its accuracy. In this paper, we generalize accuracy certificates for the ...
Добавлено: 29 ноября 2024 г.
Метод эллипсоидов для задач выпуклой стохастической оптимизации малой размерности
Гладин Е. Л., Зайнуллина К. Э., Компьютерные исследования и моделирование 2021 Т. 13 № 6 С. 1137–1147
В статье рассматривается задача минимизации математического ожидания выпуклой функции. Задачи такого вида повсеместны в машинном обучении, а также часто возникают в ряде других приложений. На практике для их решения обычно используются процедуры типа стохастического градиентного спуска (SGD). В нашей работе предлагается решать такие задачи с использованием метода эллипсоидов с мини-батчингом. Алгоритм имеет линейную скорость сходимости ...
Добавлено: 29 ноября 2024 г.
Breaking the Heavy-Tailed Noise Barrier in Stochastic Optimization Problems
Пучкин Н. А., Горбунов Э. А., Kutuzov N. и др., , in: Proceedings of The 27th International Conference on Artificial Intelligence and Statistics (AISTATS 2024), 2-4 May 2024, Palau de Congressos, Valencia, Spain. PMLR: Volume 238Vol. 238.: Valencia: PMLR, 2024. P. 856–864.
Добавлено: 22 апреля 2024 г.
On a simple connection between Δ-modular ILP and LP, and a new bound on the number of integer vertices
Грибанов Д. В., Малышев Д. С., Shumilov I., Operations Research Forum 2024 Vol. 5 Article 32
Добавлено: 4 апреля 2024 г.
Accelerated zeroth-order method for non-smooth stochastic convex optimization problem with infinite variance
Kornilov N., Shamir O., Lobanov A. и др., , in: Advances in Neural Information Processing Systems 36 (NeurIPS 2023).: Curran Associates, Inc., 2023. P. 64083–64102.
Добавлено: 26 марта 2024 г.
  • О ВЫШКЕ
  • Цифры и факты
  • Руководство и структура
  • Устойчивое развитие в НИУ ВШЭ
  • Преподаватели и сотрудники
  • Корпуса и общежития
  • Закупки
  • Обращения граждан в НИУ ВШЭ
  • Фонд целевого капитала
  • Противодействие коррупции
  • Сведения о доходах, расходах, об имуществе и обязательствах имущественного характера
  • Сведения об образовательной организации
  • Людям с ограниченными возможностями здоровья
  • Единая платежная страница
  • Работа в Вышке
  • ОБРАЗОВАНИЕ
  • Лицей
  • Довузовская подготовка
  • Олимпиады
  • Прием в бакалавриат
  • Вышка+
  • Прием в магистратуру
  • Аспирантура
  • Дополнительное образование
  • Центр развития карьеры
  • Бизнес-инкубатор ВШЭ
  • Образовательные партнерства
  • Обратная связь и взаимодействие с получателями услуг
  • НАУКА
  • Научные подразделения
  • Исследовательские проекты
  • Мониторинги
  • Диссертационные советы
  • Защиты диссертаций
  • Академическое развитие
  • Конкурсы и гранты
  • Внешние научно-информационные ресурсы
  • РЕСУРСЫ
  • Библиотека
  • Издательский дом ВШЭ
  • Книжный магазин «БукВышка»
  • Типография
  • Медиацентр
  • Журналы ВШЭ
  • Публикации
  • http://www.minobrnauki.gov.ru/
    Министерство науки и высшего образования РФ
  • https://edu.gov.ru/
    Министерство просвещения РФ
  • http://www.edu.ru
    Федеральный портал «Российское образование»
  • https://elearning.hse.ru/mooc
    Массовые открытые онлайн-курсы
  • НИУ ВШЭ1993–2026
  • Адреса и контакты
  • Условия использования материалов
  • Политика конфиденциальности
  • Правила применения рекомендательных технологий в НИУ ВШЭ
  • Карта сайта
Редактору