Обзор выпуклой оптимизации марковских процессов принятия решений

В. Д. Руденко; Н. Е. Юдин; А. А. Васин

doi:10.20537/2076-7633-2023-15-2-329-353

Публикации

?

Обзор выпуклой оптимизации марковских процессов принятия решений

Компьютерные исследования и моделирование. 2023. Т. 15. № 2. С. 329–353.

Руденко В. Д., Юдин Н. Е., Васин А. А.

В данной статье проведен обзор как исторических достижений, так и современных результатов в области марковских процессов принятия решений (Markov Decision Process, MDP) и выпуклой оптимизации. Данный обзор является первой попыткой освещения на русском языке области обучения с подкреплением в контексте выпуклой оптимизации. Рассматриваются фундаментальное уравнение Беллмана и построенные на его основе критерии оптимальности политики — стратегии, принимающие решение по известному состоянию среды на данный момент. Также рассмотрены основные итеративные алгоритмы оптимизации политики, построенные на решении уравнений Беллмана. Важным разделом данной статьи стало рассмотрение альтернативы к подходу QQ-обучения — метода прямой максимизации средней награды агента для избранной стратегии от взаимодействия со средой. Таким образом, решение данной задачи выпуклой оптимизации представимо в виде задачи линейного программирования. В работе демонстрируется, как аппарат выпуклой оптимизации применяется для решения задачи обучения с подкреплением (Reinforcement Learning, RL). В частности, показано, как понятие сильной двойственности позволяет естественно модифицировать постановку задачи RL, показывая эквивалентность между максимизацией награды агента и поиском его оптимальной стратегии. В работе также рассматривается вопрос сложности оптимизации MDP относительно количества троек «состояние–действие–награда», получаемых в результате взаимодействия со средой. Представлены оптимальные границы сложности решения MDP в случае эргодического процесса с бесконечным горизонтом, а также в случае нестационарного процесса с конечным горизонтом, который можно перезапускать несколько раз подряд или сразу запускать параллельно в нескольких потоках. Также в обзоре рассмотрены последние результаты по уменьшению зазора нижней и верхней оценки сложности оптимизации MDP с усредненным вознаграждением (Averaged MDP, AMDP). В заключение рассматриваются вещественнозначная параметризация политики агента и класс градиентных методов оптимизации через максимизацию QQ-функции ценности. В частности, представлен специальный класс MDP с ограничениями на ценность политики (Constrained Markov Decision Process, CMDP), для которых предложен общий прямодвойственный подход к оптимизации, обладающий сильной двойственностью.

Научное направление: Математика Компьютерные науки

Язык: русский

Полный текст

DOI

Текст на другом сайте

Ключевые слова: линейное программирование linear programming выпуклая оптимизация Q-Learning convex optimization MDP policy gradient methods MDP Q-обучение методы градиента политики

Kolmogorov Operators and Their Applications

Springer Singapore (Singapore), 2024.

Добавлено: 17 июля 2026 г.

Existence and uniqueness results for strongly degenerate McKean-Vlasov equations with rough coefficients

Веретенников А. Ю., Pascucci A., Rondelli A., Stochastic Processes and their Applications 2026 Vol. 199 Article 104978

Добавлено: 17 июля 2026 г.

О сильных решениях многомерных СДУ с диагональными матрицами диффузии

Веретенников А. Ю., Ляппиева А. А., Теория вероятностей и ее применения 2026 Т. 71 № 2 С. 295–304

Установлен новый результат о сильной единственности для многомерного СДУ с невырожденной диффузией и частично нерегулярным сносом. Его можно рассматривать как комбинированный вариант на темы Ямада и Ватанабэ (1971), Звонкина (1974) и первого автора настоящей статьи (1980). ...

Добавлено: 17 июля 2026 г.

Об условиях для центральной предельной теоремы Добрушина для неоднородных цепей Маркова

Веретенников А. Ю., Нуриева А. И., Доклады Российской академии наук. Математика, информатика, процессы управления (ранее - Доклады Академии Наук. Математика) 2025 Т. 525 С. 24–30

Предложено новое достаточное условие в задаче о центральной предельной теореме в схеме серий для неоднородных цепей Маркова, с возможностью того, что минимум эргодического коэффициента Маркова–Добрушина может быть ближе к нулю, чем в основном условии Добрушина. ...

Добавлено: 17 июля 2026 г.

О частных производных модифицированных полиномов Бернштейна–Станку для функций нескольких переменных

Веретенников А. Ю., Мазутский Н. М., Математический сборник 2025 Т. 216 № 7 С. 3–27

Целью работы является доказательство аппроксимации смешанных производных второго порядка для функции нескольких переменных в норме L1 такими же производными модифицированных полиномов Бернштейна–Станку при минимальной возможной регулярности. ...

Добавлено: 17 июля 2026 г.

О законе больших чисел для неодинаково распределенных слабо зависимых слагаемых

Ахмярова А. Т., Веретенников А. Ю., Теория вероятностей и ее применения 2025 Т. 70 № 2 С. 211–227

В работе предложены новые версии слабого закона больших чисел (ЗБЧ) для слабо зависимых слагаемых (вообще говоря, разнораспределенных) как при наличии математического ожидания каждого из них, так и без такового. Одним из основных условий в первом из трех рассматриваемых случаев, в котором развиваются идеи из статьи Ю. Ш. Чау 1971 г., является равномерная интегрируемость слагаемых по Чезаро в духе работ по ЗБЧ для ...

Добавлено: 17 июля 2026 г.

On weak existence of solutions of degenerate McKean-Vlasov equations

Веретенников А. Ю., Stochastics and Dynamics 2024

Добавлено: 17 июля 2026 г.

Об усиленном законе больших чисел для попарно независимых случайных величин

Ахмярова А. Т., Веретенников А. Ю., Теория вероятностей и ее применения 2024 Т. 69 № 3 С. 427–438

Предложен новый вариант усиленного закона больших чисел для попарно независимых случайных величин. Основная цель — ослабить требование существования математического ожидания каждого из слагаемых. Предположение о попарной независимости также ослаблено. ...

Добавлено: 17 июля 2026 г.

On Higher Order Moments and Rates of Convergence for SDEs with Switching

Веретенников А. Ю., Moscow Mathematical Journal 2024 Vol. 24 No. 1 P. 107–124

Добавлено: 16 июля 2026 г.

On Positive Recurrence of the Mn/GI/1/∞ Model

Веретенников А. Ю., Mathematics 2023 Vol. 11 No. 21 Article 4514

Добавлено: 16 июля 2026 г.

On averaged expected cost control for 1D controlled ergodic diffusions with switching

Веретенников А. Ю., Markov Processes and Related Fields 2023 Vol. 23 No. 2 P. 259–294

Добавлено: 16 июля 2026 г.

WSI-GT: Pseudo-Label Guided Graph Transformer for Whole-Slide Histology

Михайлов И. А., Machine Learning and Knowledge Extraction 2026 Vol. 8 No. 1 Article 8

Whole-slide histology images (WSIs) can exceed 100 k × 100 k pixels, making direct pixel-level segmentation infeasible and requiring patch-level classification as a practical alternative for downstream WSI segmentation. However, most approaches either treat patches independently, ignoring spatial and biological context, or rely on deep graph models prone to oversmoothing and loss of local tissue ...

Добавлено: 16 июля 2026 г.

On recurrence, convergence and mixing rate for generalised Wright - Fisher's diffusion with mutation

Веретенников А. Ю., Sineokiy R., Markov Processes and Related Fields 2023 Vol. 23 No. 2 P. 241–258

Добавлено: 16 июля 2026 г.

Polynomial Recurrence for SDEs with a Gradient-Type Drift, Revisited

Веретенников А. Ю., Mathematics 2023 Vol. 11 No. 14 Article 3096

Добавлено: 16 июля 2026 г.

On the construction of Barnes–Wall lattices and their application in cryptography

Кунинец А. А., Малыгина Е. С., Leevik A. G. и др., Journal of Computer Virology and Hacking Techniques 2026 No. 22 Article 62

Добавлено: 16 июля 2026 г.

On functional equations for Chow polylogarithms

Болбачан В. С., / Series math "arxiv.org". 2024.

Полилогарифмы Чжоу — это специальные функции, возникающие при явном описании отображения регулятора Бейлинсона. Наиболее интересное функциональное уравнение для этой функции отражает тот факт, что она обращается в нуль на границе в комплексе циклов Блоха. Мы показываем, что это функциональное уравнение формально вытекает из более простых свойств: кососимметричности, функториальности и мультипликативности. Для доказательства этого мы рассматриваем ...

Добавлено: 16 июля 2026 г.

On Goncharov’s conjecture in next to Milnor degree

Болбачан В. С., / Series math "arxiv.org". 2024.

Пусть K поле характеристики ноль. Мы доказываем что его когомологии в степени m-1 и весе m рационально изоморфны когомологиям полилогарифмического комплекса в соответствующей степени. Это дает частичное расширение теоремы Суслина, описывающую неразложимую K теорию K_3 для поля. ...

Добавлено: 16 июля 2026 г.

Linear orders in Presburger arithmetic

Запрягаев А. А., Пахомов Ф. Н., Logic Journal of the IGPL 2026 Vol. 34 No. 4 Article 12

Добавлено: 16 июля 2026 г.

On Markov–up processes and their recurrence properties

Веретенников А. Ю., Веретенникова М. А., Reliability: Theory & Applications 2022 Vol. 17 No. 3(69) P. 273–291

Добавлено: 16 июля 2026 г.

Positive recurrence of a solution of an SDE with variable switching intensities

Веретенников А. Ю., Stochastics and Partial Differential Equations: Analysis and Computations 2022 Vol. 10 P. 1165–1179

Добавлено: 15 июля 2026 г.

An open problem about the rate of convergence in Erlang-Sevastyanov’s model

Веретенников А. Ю., Queueing Systems 2022 Vol. 100 No. 3-4 P. 357–359

Добавлено: 15 июля 2026 г.

Dynamical origin of extreme events in mutually coupled and networked Brusselator

Physical Review E - Statistical, Nonlinear, and Soft Matter Physics 2026 Vol. 114 No. 1 P. 014217–014217

Добавлено: 15 июля 2026 г.

Exploring New Frontiers in Vertical Federated Learning: the Role of Saddle Point Reformulation

Beznosikov A., Kormakov G., Grigorievskiy A. и др., Journal of Optimization Theory and Applications 2026 Vol. 209 Article 18

Добавлено: 17 июня 2026 г.

On Linear Convergence in Smooth Convex-Concave Bilinearly-Coupled Saddle-Point Optimization: Lower Bounds and Optimal Algorithms

Бородич Е. Д., Гасников А. В., Kovalev D., , in: Volume 267: International Conference on Machine Learning, 13-19 July 2025, Vancouver Convention Center, Vancouver, CanadaVol. 267.: [б.и.], 2025. P. 5045–5100.

Добавлено: 18 ноября 2025 г.