• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • A
  • A
  • A
  • A
  • A
Обычная версия сайта
  • RU
  • EN
  • Национальный исследовательский университет «Высшая школа экономики»
  • Публикации ВШЭ
  • Статьи
  • Optimal Approximation of Average Reward Markov Decision Processes
  • RU
  • EN
Расширенный поиск
Высшая школа экономики
Национальный исследовательский университет
Приоритетные направления
  • бизнес-информатика
  • государственное и муниципальное управление
  • гуманитарные науки
  • инженерные науки
  • компьютерно-математическое
  • математика
  • менеджмент
  • право
  • социология
  • экономика
по году
  • 2027
  • 2026
  • 2025
  • 2024
  • 2023
  • 2022
  • 2021
  • 2020
  • 2019
  • 2018
  • 2017
  • 2016
  • 2015
  • 2014
  • 2013
  • 2012
  • 2011
  • 2010
  • 2009
  • 2008
  • 2007
  • 2006
  • 2005
  • 2004
  • 2003
  • 2002
  • 2001
  • 2000
  • 1999
  • 1998
  • 1997
  • 1996
  • 1995
  • 1994
  • 1993
  • 1992
  • 1991
  • 1990
  • 1989
  • 1988
  • 1987
  • 1986
  • 1985
  • 1984
  • 1983
  • 1982
  • 1981
  • 1980
  • 1979
  • 1978
  • 1977
  • 1976
  • 1975
  • 1974
  • 1973
  • 1972
  • 1971
  • 1970
  • 1969
  • 1968
  • 1967
  • 1966
  • 1965
  • 1964
  • 1963
  • 1958
  • еще
Тематика
Новости
30 июня 2026 г.
Аспирантка НИУ ВШЭ получила премию за выдающуюся научную статью
Международное научное общество по коллективному выбору и экономике благосостояния — Society for Social Choice and Welfare (SSCW) — присудило награду для молодых исследователей Ангелине Юдиной, аспирантке и преподавателю департамента математики ФЭН, младшему научному сотруднику Международного центра анализа и выбора решений НИУ ВШЭ. Ученые отметили ее статью, посвященную решениям задачи выбора наилучших альтернатив на основании результатов их попарных сравнений.
30 июня 2026 г.
«Я хотела бы, чтобы мои исследования помогали делать мир спокойнее и лучше»
Какую бы задачу ни решала младший научный сотрудник Лаборатории методов анализа больших данных Института искусственного интеллекта и цифровых наук ФКН ВШЭ Сараа Али, она думает, какую пользу она может принести людям. О своей большой семье, диагностике трехфазных двигателей и мечте построить на родине детский приют она рассказала проекту «Молодые ученые Вышки».
30 июня 2026 г.
Экономисты ВШЭ научились прогнозировать рождаемость по поисковым запросам
Сотрудники факультета экономических наук НИУ ВШЭ показали, что точность прогноза рождаемости в России можно улучшить почти в полтора раза, если добавить в модель динамику поисковых запросов по темам, связанным с беременностью и родами. В наиболее эффективных моделях ошибка прогноза снижается с 4,6 до 3,2%. Результаты исследования опубликованы в журнале Populations and Economics.

 

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!

Публикации
  • Книги
  • Статьи
  • Главы в книгах
  • Препринты
  • Верификация публикаций
  • Расширенный поиск
  • Правила использования материалов
  • Наука в ВШЭ

?

Optimal Approximation of Average Reward Markov Decision Processes

Computational Mathematics and Mathematical Physics. 2025. Vol. 65. No. 3. P. 567–581.
Сапронов Ю. Ф., Юдин Н. Е.

We continue to develop the concept of studying the ε-optimal policy for Average Reward Markov Decision Processes (AMDP) by reducing it to Discounted Markov Decision Processes (DMDP). Existing research often stipulates that the discount factor must not fall below a certain threshold. Typically, this threshold is close to one, and as is well-known, iterative methods used to find the optimal policy for DMDP become less effective as the discount factor approaches this value.

Our work distinguishes itself from existing studies by allowing for inaccuracies in solving the empirical Bellman equation. Despite this, we have managed to maintain the sample complexity that aligns with the latest results. We have succeeded in separating the contributions from the inaccuracy of approximating the transition matrix and the residuals in solving the Bellman equation in the upper estimate so that our findings enable us to determine the total complexity of the epsilon-optimal policy analysis for DMDP across any method with a theoretical foundation in iterative complexity.

Научное направление: Математика Компьютерные науки
Язык: английский
DOI
Текст на другом сайте
Ключевые слова: Markov Decision Processesвычислительная сложностьобучение с подкреплениемадгритмы и алгоритмическая сложностьразмер выборкиsample complexityreinforcement learning (RL)iteration complexityмарковские процессы принятия решений
Похожие публикации
Почти пустые симплексы и полиэдры Клейна
Герман О. Н., Илларионов А. А., Известия РАН. Серия математическая 2026 Т. 90 № 3 С. 3–18
Пусть симплекс с целочисленными вершинами - содержащий ровно одну целочисленную точку, отличную от своих вершин. В работе доказывается, что если точка находится во внутренности симплекса или в относительной внутренности некоторой гиперграни симплекса, то объем симплекса ограничен величиной, зависящей только от размерности, в противном случае объем симплекса может быть сколь угодно большим. Этот результат применяется для вывода асимптотической формулы для среднего числа вершин полиэдров ...
Добавлено: 29 июня 2026 г.
The 12th International Conference on Information Technology and Quantitative Management (ITQM 2025)
Netherlands: ScienceDirect, 2025.
Добавлено: 28 июня 2026 г.
Object-centric process management: A research manifesto
Seidel A., Weske M., Montali M. и др., Information Systems 2026 Vol. 141 Article 102728
Добавлено: 27 июня 2026 г.
2024 26th International Conference on Digital Signal Processing and its Applications (DSPA)
IEEE, 2024.
Добавлено: 27 июня 2026 г.
Построение методик оценки качества восприятия (QOE) потокового видео
Ивченко А. В., Дворкович А. В., Телекоммуникации 2020 Т. 12 С. 2–11
Технология Dynamic Adaptive Streaming over HTTP (DASH) обеспечивает работу большинства мультимедийных сервисов, ее особенности (повторные буферизации, переключения качества и др.) приводят к необходимости создания специализированных методик оценки пользовательского, субъективного качества восприятия Quality of Experience (QoE) на основе объективных параметров. В данной статье исследуется влияние различных метрик на QoE и приводятся модели оценки с коэффициентом корреляции ...
Добавлено: 27 июня 2026 г.
Generalized Hurst Hypothesis: Description of Time-Series in Communication Systems
Ивченко А. В., Nigmatullin R. R., Dorokhin S. V., Mathematics 2026 Vol. 9 No. 4 Article 381
В данной работе мы сосредоточимся на обобщении эмпирического закона Херста и предложим набор редуцированных параметров для количественного описания длительных временных рядов. Эти ряды обычно рассматриваются как специфический отклик сложной системы (экономической, геофизической, электромагнитной и других), где последовательная фиксация внешних факторов становится невозможной. Мы рассматриваем применение обобщенных законов Херста для получения нового набора редуцированных параметров в ...
Добавлено: 27 июня 2026 г.
Indicators of cosmonaut locomotor functions stability: A new method for ground-reaction forces analysis
Ивченко А. В., Шестопёров А. И., Фомина Е. В., Microgravity Science and Technology 2025 Vol. 37 No. 19 P. 1–19
Данная работа посвящена анализу медико-биологических данных, полученных в ходе локомоторных тестов космонавтов. Точная интерпретация данных играет решающую роль в мониторинге системы передвижения, профилактике негативных последствий длительного космического полета и, следовательно, в разработке автономной системы медицинского обеспечения для экспедиций в дальний космос. Во время локомоторных тестов космонавт меняет режимы движения в соответствии с предписанным протоколом тренировки, ...
Добавлено: 26 июня 2026 г.
Платформа, управляемая событиями, для интеграции компонентов машинного зрения с операционным центром.
Гаджимирзаев Ш. М., Хельвас А. В., 2023 3rd International Conference on Innovative Research in Applied Science, Engineering and Technology (IRASET) Mohammedia, Morocco 2023 P. 1–6
В статье предлагается архитектура событийно-управляемого Центра экстренного реагирования с компонентом компьютерного зрения. Анализируются источники информации и обсуждаются подходы к использованию событий компьютерного зрения для обнаружения и оценки тактических ситуаций. Сообщения от компонентов компьютерного зрения преобразуются в Протокол общих оповещений (Common Alerting Protocol) и обрабатываются средой Центра управления для распознавания тактических ситуаций. ...
Добавлено: 26 июня 2026 г.
Дискретное моделирование процесса восстановительного ремонта участка дороги
Гаджимирзаев Ш. М., Хельвас А. В., Компьютерные исследования и моделирование 2022 Т. 14 № 6 С. 1255–1268
абота содержит описание результатов моделирования процесса поддержания готовности участка дорожной сети в условиях воздействия с заданными параметрами. Рассматривается одномерный участок дороги длиной до 40 км с общим количеством ударов до 100 в течение рабочей смены бригады. Разработана имитационная модель проведения работ по его поддержанию в рабочем состоянии несколькими группами (инженерными бригадами), входящими в состав инженерно-дорожного ...
Добавлено: 26 июня 2026 г.
Подход к оценке динамики уровня консолидированности отрасли
Гаджимирзаев Ш. М., Хельвас А. В., Лукьянченко П. П., Computer Research and Modeling 2023 Vol. 15 No. 1 P. 129–140
В данной статье нами предложен новый подход к анализу эконометрических параметров отрасли для уровня консолидированности отрасли. Исследование базируется на простой модели управления отраслью в соответствии с моделью из теории автоматического управления. Состояние отрасли оценивается на основе ежеквартальных эконометрических параметров получаемых в обезличенном виде от каждой компании отрасли через налогового регулятора. Предложен подход к анализу отрасли, ...
Добавлено: 26 июня 2026 г.
TreeDQN: Sample-efficient off-policy reinforcement learning for combinatorial optimization
Sorokin D., Kostin A., Савченко Л. В. и др., Knowledge-Based Systems 2026 Vol. 348 Article 116258
Добавлено: 10 июня 2026 г.
Universal Comparison Methodology for Hough Transform Approaches
Kazimirov D., Vitalii Gulevskii, Kroshnin A. и др., Mathematics 2026 Article 1136
Добавлено: 28 мая 2026 г.
О СЛОЖНОСТИ ПРОБЛЕМЫ ТОТАЛЬНОЙ ВЫВОДИМОСТИ В НЕУКОРАЧИВАЮЩИХ И КОНТЕКСТНО-СВОБОДНЫХ ГРАММАТИКАХ
Дудаков С. М., Карлов Б. Н., Доклады Российской академии наук. Математика, информатика, процессы управления (ранее - Доклады Академии Наук. Математика) 2025 Т. 524 № 1 С. 11–18
В работе изучается проблема тотальной выводимости в контекстно-свободных, неукорачивающих и контекстно-зависимых грамматиках. Для фиксированного терминального слова проблема состоит в том, чтобы по грамматике определить, существует ли вывод этого слова, в котором каждое правило используется не менее некоторого заданного числа раз. Доказывается, что проблема тотальной выводимости пустого слова в контекстно-свободной грамматике является NP-полной. Для неукорачивающих и ...
Добавлено: 18 марта 2026 г.
О схлопывании вероятностных иерархий. I
Сперанский С. О., Алгебра и логика 2013 Т. 52 № 2 С. 236–254
Изучаются иерархии проблем общезначимости для префиксных фрагментов вероятностной логики с кванторами по пропозициональным формулам, обозначаемой QPL, и её вариантов. Доказывается: если подполе F вещественных чисел определимо в стандартной модели арифметики посредством формулы второго порядка, не содержащей кванторов по множествам, то проблема общезначимости над F-значными вероятностными структурами для $\Sigma_4$-QPL-предложений является $\Pi^1_1$-полной и, как следствие, соответствующая иерархия проблем общезначимости схлопывается. Более того, при ...
Добавлено: 27 декабря 2025 г.
Некоторые классификации сложности задачи о вершинной 3-раскраске
Дахно Г. С., Малышев Д. С., Математические заметки 2026 Т. 119 № 3 С. 360–376
Наследственный класс — множество графов, замкнутое относительно удаления вершин. Каждый такой класс имеет каноническое описание посредством минимальных запрещенных порожденных фрагментов. Задача о вершинной 3-раскраске (задача 3-ВР) для заданного графа состоит в том, чтобы определить, а можно ли множество его вершин разбить на три подмножества попарно несмежных вершин. Известна дихотомия сложности этой задачи для всех наследственных ...
Добавлено: 26 ноября 2025 г.
NP-полнота игры “Ханаби” при минимальных параметрах
Оноприенко А. А., Доклады Российской академии наук. Математика, информатика, процессы управления (ранее - Доклады Академии Наук. Математика) 2025 № 527 С. 206–216
Мы исследуем кооперативную карточную игру “Ханаби” с точки зрения алгоритмической сложности. Особенность “Ханаби” заключается в том, что игроки видят карты других игроков, но не свои, и об- мениваются информацией путем подсказок. Даже в модели с одним игроком, обладающим полной информацией о колоде, “Ханаби” остается NP-трудной. Найдены минимальные параметры игры, при которых сохраняется NP-трудность. В случае ...
Добавлено: 23 ноября 2025 г.
Weighted mesh algorithms for general Markov decision processes: Convergence and tractability
Беломестный Д. В., Schoenmakers J., Zorina V., Journal of Complexity 2025 Vol. 88 Article 101932
Добавлено: 10 ноября 2025 г.
Optimizing Backward Policies in GFlowNets via Trajectory Likelihood Maximization
Timofei Gritsaev, Морозов Н. В., Самсонов С. В. и др., , in: Proceedings of the 13th International Conference on Learning Representations (ICLR 2025).: ICLR, 2025. P. 95626–95646.
Добавлено: 15 августа 2025 г.
Логики с аксиомой конвергентности: сложность при малом числе переменных в языке
Рыбаков М. Н., Щербаков М. И., В кн.: Четырнадцатые Смирновские чтения по логике: материалы Междунар. науч. конф., Москва, 19-21 июня 2025 г.: М.: Издатель Александр Воробьев, 2025. С. 46–49.
Логики с аксиомой конвергентности: сложность при малом числе переменных в языке ...
Добавлено: 21 июня 2025 г.
Сложность константных фрагментов ненормальных модальных логик
Кудинов А. В., Рыбаков М. Н., В кн.: Четырнадцатые Смирновские чтения по логике: материалы Междунар. науч. конф., Москва, 19-21 июня 2025 г.: М.: Издатель Александр Воробьев, 2025. С. 36–39.
Показано, что каждая модальная логика, содержащая классическую логику высказываний и содержащаяся в слабой логике Гжегорчика, имеет NP-трудную проблему выполнимости для константного фрагмента. В частности, константные фрагменты ненормальных модальных логик E, EM, EN и EMN являются coNP-полными. ...
Добавлено: 21 июня 2025 г.
VIA AI: Reliable Deep Reinforcement Learning for Traffic Signal Control
Герасёв М. С., Kiselev D., Бекетов М. Е. и др., , in: 2024 IEEE International Conference on Data Mining (ICDM) Workshops (ICDMW).: Curran Associates, 2024. P. 887–890.
Добавлено: 27 марта 2025 г.
The beer game bullwhip effect mitigation: a deep reinforcement learning approach
Рожков М. И., Алямовская Н. С., Заходякин Г. В., International Journal of Production Research 2025 Vol. 63 No. 18 P. 6630–6647
Добавлено: 24 марта 2025 г.
Optimization of the Accelerator Control by Reinforcement Learning: A Simulation-Based Approach
Ибрахим А., Деркач Д. А., Petrenko A. и др., Physics of Particles and Nuclei 2025 Vol. 56 No. 6 P. 1476–1481
Добавлено: 16 марта 2025 г.
Компьютерное моделирование аффективных процессов в когнитивном контроле
Баланина С. Н., Березнер Т. А., В кн.: Психология познания: материалы Всероссийской научной конференции. ЯрГУ, 6–8 декабря 2024 г. Материалы Всероссийской научной конференции памяти Дж. С. Брунера.: Яр.: ЯрГУ им. П. Г. Демидова, 2024. С. 45–48.
В настоящей работе мы предложили метод моделирования эмоциональной реакции, вызываемой стимулами в задаче Струпа. Наша модель отражает изменение валентности вызываемой реакции, то есть аффективной оценки стимула, по мере прохождения эксперимента. Мы использовали модель из класса алгоритмов обучения с подкреплением, разработанную Silvetti et al. (Silvetti et al., 2018). Результаты симуляции подтвердили, что вначале аффективная оценка выше ...
Добавлено: 28 декабря 2024 г.
  • О ВЫШКЕ
  • Цифры и факты
  • Руководство и структура
  • Устойчивое развитие в НИУ ВШЭ
  • Преподаватели и сотрудники
  • Корпуса и общежития
  • Закупки
  • Обращения граждан в НИУ ВШЭ
  • Фонд целевого капитала
  • Противодействие коррупции
  • Сведения о доходах, расходах, об имуществе и обязательствах имущественного характера
  • Сведения об образовательной организации
  • Людям с ограниченными возможностями здоровья
  • Единая платежная страница
  • Работа в Вышке
  • ОБРАЗОВАНИЕ
  • Лицей
  • Довузовская подготовка
  • Олимпиады
  • Прием в бакалавриат
  • Вышка+
  • Прием в магистратуру
  • Аспирантура
  • Дополнительное образование
  • Центр развития карьеры
  • Бизнес-инкубатор ВШЭ
  • Образовательные партнерства
  • Обратная связь и взаимодействие с получателями услуг
  • НАУКА
  • Научные подразделения
  • Исследовательские проекты
  • Мониторинги
  • Диссертационные советы
  • Защиты диссертаций
  • Академическое развитие
  • Конкурсы и гранты
  • Внешние научно-информационные ресурсы
  • РЕСУРСЫ
  • Библиотека
  • Издательский дом ВШЭ
  • Книжный магазин «БукВышка»
  • Типография
  • Медиацентр
  • Журналы ВШЭ
  • Публикации
  • http://www.minobrnauki.gov.ru/
    Министерство науки и высшего образования РФ
  • https://edu.gov.ru/
    Министерство просвещения РФ
  • http://www.edu.ru
    Федеральный портал «Российское образование»
  • https://elearning.hse.ru/mooc
    Массовые открытые онлайн-курсы
  • НИУ ВШЭ1993–2026
  • Адреса и контакты
  • Условия использования материалов
  • Политика конфиденциальности
  • Правила применения рекомендательных технологий в НИУ ВШЭ
  • Карта сайта
Редактору