Optimal Approximation of Average Reward Markov Decision Processes

Y. Sapronov; N. Yudin

doi:10.1134/S0965542524702191

Публикации

?

Optimal Approximation of Average Reward Markov Decision Processes

Computational Mathematics and Mathematical Physics. 2025. Vol. 65. No. 3. P. 567–581.

Сапронов Ю. Ф., Юдин Н. Е.

We continue to develop the concept of studying the ε-optimal policy for Average Reward Markov Decision Processes (AMDP) by reducing it to Discounted Markov Decision Processes (DMDP). Existing research often stipulates that the discount factor must not fall below a certain threshold. Typically, this threshold is close to one, and as is well-known, iterative methods used to find the optimal policy for DMDP become less effective as the discount factor approaches this value.

Our work distinguishes itself from existing studies by allowing for inaccuracies in solving the empirical Bellman equation. Despite this, we have managed to maintain the sample complexity that aligns with the latest results. We have succeeded in separating the contributions from the inaccuracy of approximating the transition matrix and the residuals in solving the Bellman equation in the upper estimate so that our findings enable us to determine the total complexity of the epsilon-optimal policy analysis for DMDP across any method with a theoretical foundation in iterative complexity.

Научное направление: Математика Компьютерные науки

Язык: английский

DOI

Текст на другом сайте

Ключевые слова: Markov Decision Processes вычислительная сложность обучение с подкреплением адгритмы и алгоритмическая сложность размер выборки sample complexity reinforcement learning (RL)iteration complexity марковские процессы принятия решений

Произведения Масси и соотношения в когомологиях алгебр Стинрода

Попеленский Ф. Ю., Математический сборник 2026 Т. 217 № 2 С. 108–153

В недавней работе В. М. Бухштабера и автора была введена новая структура в когомологиях алгебр Хопфа в терминах спектральной последовательности Бухштабера (Bss). В классической алгебре Стинрода A2 имеется важная подалгебра Хопфа A(1), когомологии которой давно известны. В настоящей работе обсуждаемая структура на этих когомологиях полностью вычислена. В рамках демонстрации методов Bss решена обратная задача: получено новое ...

Добавлено: 28 июля 2026 г.

Three-dimensional magnetization textures as quaternionic functions

Metlov K., Andrei B. Bogatyrëv, Annalen der Physik 2026 Vol. 538 No. 6 Article e70234

Добавлено: 28 июля 2026 г.

Machine Learning-based Adaptive Reconstruction of Video Stream Fragments Taking into Account Scene Dynamics. Proceedings of the Institute for System Programming of the RAS

Думкин Н. А., Александров Д. В., Прозорский М. А., Труды Института системного программирования РАН 2026 Т. 38 № 1 С. 255–274

Предложен теоретически обоснованный подход к адаптивному восстановлению видеофрагментов на стороне клиента с использованием методов машинного обучения и анализа сцены. Метод включает формальную постановку задачи, модель конечного автомата для принятия решений, функцию стоимости восстановления, а также новый этап в подготовке видео – оценку динамики сцены с последующей записью признака в HLS-плейлист. Такой признак позволяет повысить точность выбора методов восстановления фрагментов видео. ...

Добавлено: 27 июля 2026 г.

Nonlinear Neumann eigenvalues in outward cuspidal domains with weighted measure

Меновщиков А. В., Ukhlov A., Rendiconti del Circolo Matematico di Palermo 2026 Vol. 75 Article 91

Добавлено: 27 июля 2026 г.

On the (p,q)-Eigenvalues of the No-Flux p-Laplacian

Меновщиков А. В., Journal of Mathematical Sciences 2026 Vol. 298 P. 608–618

Добавлено: 27 июля 2026 г.

Automated Reasoning: 13th International Joint Conference, IJCAR 2026, Lisbon, Portugal, July 26–29, 2026, Proceedings, Part II

Cham: Springer, 2026.

Добавлено: 26 июля 2026 г.

Local Fault-Tolerant Routing in 3D Mesh NoCs using Single-Hop Rollback

Edward R. Rzaev, Aleksandr Y. Romanov, Andrey M. Sukhov, IEEE Access 2026 Vol. 14 P. 2169–3536

Добавлено: 23 июля 2026 г.

Библиометрия фольклора: русские пословицы в научных журналах

Писляков В. В., Вестник Томского государственного университета. Филология 2026 № 101 С. 175–192

Исследуется использование паремий в статьях, опубликованных в отечественных научных журналах. В результате поиска по платформе eLIBRARY.RU и постатейного просмотра полных текстов формируется «паремический массив» – набор журнальных статей, вышедших за 2014–2023 гг., в которых встречается одна из десяти исследуемых пословиц. Выделяются только случаи, когда пословицы используются авторами как пришедшиеся к слову изречения, а не как ...

Добавлено: 22 июля 2026 г.

SIGIR '26: Proceedings of the 49th International ACM SIGIR Conference on Research and Development in Information Retrieval

Association for Computing Machinery (ACM), 2026.

Добавлено: 22 июля 2026 г.

Long-range machine-learning potentials with environment-dependent charges enable predicting LO-TO splitting and dielectric constants

Korogod D., Shapeev A., Ivan S. Novikov, Physical Review B: Condensed Matter and Materials Physics 2026 Vol. 114 No. 2 Article 024104

Добавлено: 22 июля 2026 г.

Global optimization of atomic clusters via physically constrained tensor train decomposition

Sozykin K., Rybin N., Chertkov A. и др., Physical Review B: Condensed Matter and Materials Physics 2026 Vol. 113 No. 22 Article 224111

Добавлено: 22 июля 2026 г.

Optimal navigation in two-dimensional flows: Control theory and reinforcement learning

Парфеньев В. М., Physical Review E - Statistical, Nonlinear, and Soft Matter Physics 2026 Vol. 114 No. 1 Article 015104

Добавлено: 17 июля 2026 г.

Kolmogorov Operators and Their Applications

Singapore: Springer, 2024.

Добавлено: 17 июля 2026 г.

Existence and uniqueness results for strongly degenerate McKean-Vlasov equations with rough coefficients

Веретенников А. Ю., Pascucci A., Rondelli A., Stochastic Processes and their Applications 2026 Vol. 199 Article 104978

Добавлено: 17 июля 2026 г.

О сильных решениях многомерных СДУ с диагональными матрицами диффузии

Веретенников А. Ю., Ляппиева А. А., Теория вероятностей и ее применения 2026 Т. 71 № 2 С. 295–304

Установлен новый результат о сильной единственности для многомерного СДУ с невырожденной диффузией и частично нерегулярным сносом. Его можно рассматривать как комбинированный вариант на темы Ямада и Ватанабэ (1971), Звонкина (1974) и первого автора настоящей статьи (1980). ...

Добавлено: 17 июля 2026 г.

Об условиях для центральной предельной теоремы Добрушина для неоднородных цепей Маркова

Веретенников А. Ю., Нуриева А. И., Доклады Российской академии наук. Математика, информатика, процессы управления (ранее - Доклады Академии Наук. Математика) 2025 Т. 525 С. 24–30

Предложено новое достаточное условие в задаче о центральной предельной теореме в схеме серий для неоднородных цепей Маркова, с возможностью того, что минимум эргодического коэффициента Маркова–Добрушина может быть ближе к нулю, чем в основном условии Добрушина. ...

Добавлено: 17 июля 2026 г.

О частных производных модифицированных полиномов Бернштейна–Станку для функций нескольких переменных

Веретенников А. Ю., Мазутский Н. М., Математический сборник 2025 Т. 216 № 7 С. 3–27

Целью работы является доказательство аппроксимации смешанных производных второго порядка для функции нескольких переменных в норме L1 такими же производными модифицированных полиномов Бернштейна–Станку при минимальной возможной регулярности. ...

Добавлено: 17 июля 2026 г.

О законе больших чисел для неодинаково распределенных слабо зависимых слагаемых

Ахмярова А. Т., Веретенников А. Ю., Теория вероятностей и ее применения 2025 Т. 70 № 2 С. 211–227

В работе предложены новые версии слабого закона больших чисел (ЗБЧ) для слабо зависимых слагаемых (вообще говоря, разнораспределенных) как при наличии математического ожидания каждого из них, так и без такового. Одним из основных условий в первом из трех рассматриваемых случаев, в котором развиваются идеи из статьи Ю. Ш. Чау 1971 г., является равномерная интегрируемость слагаемых по Чезаро в духе работ по ЗБЧ для ...

Добавлено: 17 июля 2026 г.

On weak existence of solutions of degenerate McKean-Vlasov equations

Веретенников А. Ю., Stochastics and Dynamics 2024

Добавлено: 17 июля 2026 г.

Об усиленном законе больших чисел для попарно независимых случайных величин

Ахмярова А. Т., Веретенников А. Ю., Теория вероятностей и ее применения 2024 Т. 69 № 3 С. 427–438

Предложен новый вариант усиленного закона больших чисел для попарно независимых случайных величин. Основная цель — ослабить требование существования математического ожидания каждого из слагаемых. Предположение о попарной независимости также ослаблено. ...

Добавлено: 17 июля 2026 г.

On Higher Order Moments and Rates of Convergence for SDEs with Switching

Веретенников А. Ю., Moscow Mathematical Journal 2024 Vol. 24 No. 1 P. 107–124

Добавлено: 16 июля 2026 г.

On Positive Recurrence of the Mn/GI/1/∞ Model

Веретенников А. Ю., Mathematics 2023 Vol. 11 No. 21 Article 4514

Добавлено: 16 июля 2026 г.

On averaged expected cost control for 1D controlled ergodic diffusions with switching

Веретенников А. Ю., Markov Processes and Related Fields 2023 Vol. 23 No. 2 P. 259–294

Добавлено: 16 июля 2026 г.

Improving Differential Equation Solving in Compact Language Models via Activation Steering and Reinforcement Learning

Сурков А. Ю., Игнатенко В. В., Koltcov Sergei, Computers, Materials and Continua 2026

Добавлено: 8 июля 2026 г.