• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • A
  • A
  • A
  • A
  • A
Обычная версия сайта
  • RU
  • EN
  • Национальный исследовательский университет «Высшая школа экономики»
  • Публикации ВШЭ
  • Статьи
  • Optimal Approximation of Average Reward Markov Decision Processes
  • RU
  • EN
Расширенный поиск
Высшая школа экономики
Национальный исследовательский университет
Приоритетные направления
  • бизнес-информатика
  • государственное и муниципальное управление
  • гуманитарные науки
  • инженерные науки
  • компьютерно-математическое
  • математика
  • менеджмент
  • право
  • социология
  • экономика
по году
  • 2027
  • 2026
  • 2025
  • 2024
  • 2023
  • 2022
  • 2021
  • 2020
  • 2019
  • 2018
  • 2017
  • 2016
  • 2015
  • 2014
  • 2013
  • 2012
  • 2011
  • 2010
  • 2009
  • 2008
  • 2007
  • 2006
  • 2005
  • 2004
  • 2003
  • 2002
  • 2001
  • 2000
  • 1999
  • 1998
  • 1997
  • 1996
  • 1995
  • 1994
  • 1993
  • 1992
  • 1991
  • 1990
  • 1989
  • 1988
  • 1987
  • 1986
  • 1985
  • 1984
  • 1983
  • 1982
  • 1981
  • 1980
  • 1979
  • 1978
  • 1977
  • 1976
  • 1975
  • 1974
  • 1973
  • 1972
  • 1971
  • 1970
  • 1969
  • 1968
  • 1967
  • 1966
  • 1965
  • 1964
  • 1963
  • 1958
  • еще
Тематика
Новости
15 мая 2026 г.
В НИУ ВШЭ разрабатывают нейросеть для сферы науки и инноваций
Исследователи НИУ ВШЭ учат большие языковые модели понимать русскоязычную научную терминологию, увеличивая при этом их энергоэффективность. Адаптированная модель работает в 2,7 раза быстрее и требует на 73% меньше памяти, чем исходная открытая модель, что позволяет запускать ее на более доступном оборудовании. Программа прошла государственную регистрацию.
15 мая 2026 г.
Стартовал совместный спецпроект бренд-медиа Вышки IQ Media и iFORA ИСИЭЗ
В мае 2026 года стартовал научно-популярный проект «Искусственный интеллект: технологии, данные и будущее», который стал результатом работы двух команд — проекта iFORA Института статистических исследований и экономики знаний НИУ ВШЭ и редакции бренд-медиа IQMedia. Медийно-аналитический спецпроект посвящен современному развитию искусственного интеллекта и аналитике больших данных.
14 мая 2026 г.
<a>Ученые ФКН ВШЭ представили работы в сфере ИИ и биоинформатики на ICLR 2026
Ученые Института искусственного интеллекта и цифровых наук факультета компьютерных наук ВШЭи студенты трека «ИИ360: Инженерия искусственного интеллекта» бакалаврской программы «Прикладная математика и информатика» приняли участие в международной конференции ICLR — одном из самых авторитетных мировых форумов в области машинного обучения и представления данных. В этом году конференция состоялась в Рио-де-Жанейро (Бразилия).

 

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!

Публикации
  • Книги
  • Статьи
  • Главы в книгах
  • Препринты
  • Верификация публикаций
  • Расширенный поиск
  • Правила использования материалов
  • Наука в ВШЭ

?

Optimal Approximation of Average Reward Markov Decision Processes

Computational Mathematics and Mathematical Physics. 2025. Vol. 65. No. 3. P. 567–581.
Сапронов Ю. Ф., Юдин Н. Е.

We continue to develop the concept of studying the ε-optimal policy for Average Reward Markov Decision Processes (AMDP) by reducing it to Discounted Markov Decision Processes (DMDP). Existing research often stipulates that the discount factor must not fall below a certain threshold. Typically, this threshold is close to one, and as is well-known, iterative methods used to find the optimal policy for DMDP become less effective as the discount factor approaches this value.

Our work distinguishes itself from existing studies by allowing for inaccuracies in solving the empirical Bellman equation. Despite this, we have managed to maintain the sample complexity that aligns with the latest results. We have succeeded in separating the contributions from the inaccuracy of approximating the transition matrix and the residuals in solving the Bellman equation in the upper estimate so that our findings enable us to determine the total complexity of the epsilon-optimal policy analysis for DMDP across any method with a theoretical foundation in iterative complexity.

Научное направление: Математика Компьютерные науки
Язык: английский
DOI
Текст на другом сайте
Ключевые слова: Markov Decision Processesвычислительная сложностьобучение с подкреплениемадгритмы и алгоритмическая сложностьразмер выборкиsample complexityreinforcement learning (RL)iteration complexityмарковские процессы принятия решений
Похожие публикации
2-Elliptic Periodic Orbits near a Nonsimple Homoclinic Tangency in Four-Dimensional Symplectic Maps
Lerman L. M., Turaev D. V., Regular and Chaotic Dynamics 2026 Vol. 31 No. 3 P. 349–369
Добавлено: 15 мая 2026 г.
Bibliometric Analysis by Network Models
Алескеров Ф. Т., Якуба В. И., Khutorskaya O. и др., Springer, 2026.
Добавлено: 15 мая 2026 г.
Neural-network maps for two-parameter modeling of bistability and codimension-two bifurcations in two-dimensional flow dynamical systems
Купцов П. В., Панюшев А. А., Станкевич Н. В., Chaos 2026 Vol. 36 No. 5 Article 053138
Добавлено: 15 мая 2026 г.
Bifurcations and Structural Stability of Generic PC-HC Families
Доровский А. А., / Series arXiv "math". 2026.
Добавлено: 14 мая 2026 г.
The Sobolev space W_2^{1/2}: Simultaneous improvement of functions by a homeomorphism of the circle
Лебедев В. В., Journal of Mathematical Analysis and Applications 2026 Vol. 563 No. 2 Article 130787
Добавлено: 14 мая 2026 г.
QGKM: A Quantum Fidelity-Based Graph Clustering Framework for Robust Data Pattern Recognition in Education Social Networks QGKM: A Quantum Fidelity-Based Graph Clustering Framework for Robust Data Pattern Recognition in Education Social Networks
Neal N. X., Weiqing L., Dacheng H. и др., Algorithms 2026 Vol. 19 No. 5 P. 1–22
Добавлено: 13 мая 2026 г.
Symmetric Cubic Polynomials
Blokh A., Oversteegen L., Selinger N. и др., Arnold Mathematical Journal 2025 Vol. 12 No. 1 P. 1–40
Добавлено: 13 мая 2026 г.
Proceedings of the 9th Student Research Workshop associated with the International Conference Recent Advances in Natural Language Processing
Velichkov B., Nikolova-Koleva I., Slavcheva M., Shumen: INCOMA Ltd, 2025.
Добавлено: 12 мая 2026 г.
Игры на сетях с линейным наилучшим ответом: модели и методы управления
Петров И. В., Автоматика и телемеханика 2026 № 6 С. 82–118
Системам связанных агентов и сетевому управлению посвящено большое число отечественных и зарубежных исследований. Исторически, наибольший интерес в теории управления возникал к усредняющим системам и, в частности, к задаче консенсуса. Однако сетевое взаимодействие может характеризоваться более специфическими функциями, отражающими зависимость от действий соседей по сети, что особенно явно проявляется в моделях стратегического взаимодействия на сети, которое ...
Добавлено: 12 мая 2026 г.
Интегрированная среда моделирования для верификации и валидации программ управления подключенными и высокоавтоматизированными транспортными средствами
Степанянц В. Г., Долгов И. М., Хорошилов Г. С. и др., Труды Института системного программирования РАН 2026 Т. 38 № 3 С. 95–110
На рынок постепенно выходят высокоавтоматизированные и подключенные транспортные средства (ТС). В настоящее время предлагаются решения, позволяющие использовать эти технологии для совместного управления дорожным движением, что может значительно повысить его безопасность. В статье анализируются требования к интегрированной среде моделирования подключенных и высокоавтоматизированных ТС и совместной автоматизации управления дорожным движением с высокодетализированным учетом влияния окружающих объектов. Проанализированы ...
Добавлено: 12 мая 2026 г.
Connected and Automated Vehicle Scenario Manager Graphical User Interface
Тихонов Р. А., Efendiev M. T., Fedotenkov A. A., 2026 International Russian Smart Industry Conference (SmartIndustryCon) 2026 P. 542–547
Добавлено: 11 мая 2026 г.
Архимед: научно-методический сборник
М.: ООО «Макс Пресс», 2026.
В настоящем сборнике представлены тезисы докладов участников семинара "Интеграция основного и дополнительного физико-математического образования", проходившего 11 февраля 2026 года в ГБОУ Школа №2007 ФМШ г. москвы, а также другие публикации, посвящённые вопросам дополнительного физико-математического образования. ...
Добавлено: 11 мая 2026 г.
A two-point phase recovering from holographic data on a single plane
Novikov R., Сивкин В. Н., Inverse Problems 2026 Vol. 42 No. 4 Article 045009
Добавлено: 11 мая 2026 г.
Multivariate Newton interpolation in downward closed spaces reaches the optimal Bernstein–Walsh approximation rate
Hecht M., Hofmann P., Wicaksono D. и др., IMA Journal of Numerical Analysis 2026 Vol. 00 P. 1–30
Добавлено: 11 мая 2026 г.
Proceedings 2026 IEEE 11th International Conference on Smart Cloud SmartCloud 2026 8-10 May 2026
Los Alamitos: IEEE Computer Society, 2026.
Добавлено: 10 мая 2026 г.
От неизвестности к прозрачности: обзор технологий объяснимого ИИ (XAI)
Авдошин С. М., Песоцкая Е. Ю., Информационные технологии 2026 Т. 32 № 4 С. 185–194
С развитием ИИ, и в особенности глубокого обучения, появились модели, способные давать крайне точные прогнозы. Однако их внутренняя логика остается трудной для понимания — и это серьезная проблема, особенно в сферах, где от корректности алгоритма зависят критиче ски важные решения. Одним из перспективных путей ее решения считается направление Explainable Artificial Intelligence (XAI) — разработка подходов, позволяющих прояснять ...
Добавлено: 8 мая 2026 г.
О СЛОЖНОСТИ ПРОБЛЕМЫ ТОТАЛЬНОЙ ВЫВОДИМОСТИ В НЕУКОРАЧИВАЮЩИХ И КОНТЕКСТНО-СВОБОДНЫХ ГРАММАТИКАХ
Дудаков С. М., Карлов Б. Н., Доклады Российской академии наук. Математика, информатика, процессы управления (ранее - Доклады Академии Наук. Математика) 2025 Т. 524 № 1 С. 11–18
В работе изучается проблема тотальной выводимости в контекстно-свободных, неукорачивающих и контекстно-зависимых грамматиках. Для фиксированного терминального слова проблема состоит в том, чтобы по грамматике определить, существует ли вывод этого слова, в котором каждое правило используется не менее некоторого заданного числа раз. Доказывается, что проблема тотальной выводимости пустого слова в контекстно-свободной грамматике является NP-полной. Для неукорачивающих и ...
Добавлено: 18 марта 2026 г.
О схлопывании вероятностных иерархий. I
Сперанский С. О., Алгебра и логика 2013 Т. 52 № 2 С. 236–254
Изучаются иерархии проблем общезначимости для префиксных фрагментов вероятностной логики с кванторами по пропозициональным формулам, обозначаемой QPL, и её вариантов. Доказывается: если подполе F вещественных чисел определимо в стандартной модели арифметики посредством формулы второго порядка, не содержащей кванторов по множествам, то проблема общезначимости над F-значными вероятностными структурами для $\Sigma_4$-QPL-предложений является $\Pi^1_1$-полной и, как следствие, соответствующая иерархия проблем общезначимости схлопывается. Более того, при ...
Добавлено: 27 декабря 2025 г.
Некоторые классификации сложности задачи о вершинной 3-раскраске
Дахно Г. С., Малышев Д. С., Математические заметки 2026 Т. 119 № 3 С. 360–376
Наследственный класс — множество графов, замкнутое относительно удаления вершин. Каждый такой класс имеет каноническое описание посредством минимальных запрещенных порожденных фрагментов. Задача о вершинной 3-раскраске (задача 3-ВР) для заданного графа состоит в том, чтобы определить, а можно ли множество его вершин разбить на три подмножества попарно несмежных вершин. Известна дихотомия сложности этой задачи для всех наследственных ...
Добавлено: 26 ноября 2025 г.
NP-полнота игры “Ханаби” при минимальных параметрах
Оноприенко А. А., Доклады Российской академии наук. Математика, информатика, процессы управления (ранее - Доклады Академии Наук. Математика) 2025 № 527 С. 206–216
Мы исследуем кооперативную карточную игру “Ханаби” с точки зрения алгоритмической сложности. Особенность “Ханаби” заключается в том, что игроки видят карты других игроков, но не свои, и об- мениваются информацией путем подсказок. Даже в модели с одним игроком, обладающим полной информацией о колоде, “Ханаби” остается NP-трудной. Найдены минимальные параметры игры, при которых сохраняется NP-трудность. В случае ...
Добавлено: 23 ноября 2025 г.
Weighted mesh algorithms for general Markov decision processes: Convergence and tractability
Беломестный Д. В., Schoenmakers J., Zorina V., Journal of Complexity 2025 Vol. 88 Article 101932
Добавлено: 10 ноября 2025 г.
Optimizing Backward Policies in GFlowNets via Trajectory Likelihood Maximization
Timofei Gritsaev, Морозов Н. В., Самсонов С. В. и др., , in: Proceedings of the 13th International Conference on Learning Representations (ICLR 2025).: ICLR, 2025. P. 95626–95646.
Добавлено: 15 августа 2025 г.
Логики с аксиомой конвергентности: сложность при малом числе переменных в языке
Рыбаков М. Н., Щербаков М. И., В кн.: Четырнадцатые Смирновские чтения по логике: материалы Междунар. науч. конф., Москва, 19-21 июня 2025 г.: М.: Издатель Александр Воробьев, 2025. С. 46–49.
Логики с аксиомой конвергентности: сложность при малом числе переменных в языке ...
Добавлено: 21 июня 2025 г.
Сложность константных фрагментов ненормальных модальных логик
Кудинов А. В., Рыбаков М. Н., В кн.: Четырнадцатые Смирновские чтения по логике: материалы Междунар. науч. конф., Москва, 19-21 июня 2025 г.: М.: Издатель Александр Воробьев, 2025. С. 36–39.
Показано, что каждая модальная логика, содержащая классическую логику высказываний и содержащаяся в слабой логике Гжегорчика, имеет NP-трудную проблему выполнимости для константного фрагмента. В частности, константные фрагменты ненормальных модальных логик E, EM, EN и EMN являются coNP-полными. ...
Добавлено: 21 июня 2025 г.
  • О ВЫШКЕ
  • Цифры и факты
  • Руководство и структура
  • Устойчивое развитие в НИУ ВШЭ
  • Преподаватели и сотрудники
  • Корпуса и общежития
  • Закупки
  • Обращения граждан в НИУ ВШЭ
  • Фонд целевого капитала
  • Противодействие коррупции
  • Сведения о доходах, расходах, об имуществе и обязательствах имущественного характера
  • Сведения об образовательной организации
  • Людям с ограниченными возможностями здоровья
  • Единая платежная страница
  • Работа в Вышке
  • ОБРАЗОВАНИЕ
  • Лицей
  • Довузовская подготовка
  • Олимпиады
  • Прием в бакалавриат
  • Вышка+
  • Прием в магистратуру
  • Аспирантура
  • Дополнительное образование
  • Центр развития карьеры
  • Бизнес-инкубатор ВШЭ
  • Образовательные партнерства
  • Обратная связь и взаимодействие с получателями услуг
  • НАУКА
  • Научные подразделения
  • Исследовательские проекты
  • Мониторинги
  • Диссертационные советы
  • Защиты диссертаций
  • Академическое развитие
  • Конкурсы и гранты
  • Внешние научно-информационные ресурсы
  • РЕСУРСЫ
  • Библиотека
  • Издательский дом ВШЭ
  • Книжный магазин «БукВышка»
  • Типография
  • Медиацентр
  • Журналы ВШЭ
  • Публикации
  • http://www.minobrnauki.gov.ru/
    Министерство науки и высшего образования РФ
  • https://edu.gov.ru/
    Министерство просвещения РФ
  • http://www.edu.ru
    Федеральный портал «Российское образование»
  • https://elearning.hse.ru/mooc
    Массовые открытые онлайн-курсы
  • НИУ ВШЭ1993–2026
  • Адреса и контакты
  • Условия использования материалов
  • Политика конфиденциальности
  • Правила применения рекомендательных технологий в НИУ ВШЭ
  • Карта сайта
Редактору