?
Optimizing Backward Policies in GFlowNets via Trajectory Likelihood Maximization
P. 95626–95646.
ПУБЛИКАЦИЯ ПОДГОТОВЛЕНА ПО РЕЗУЛЬТАТАМ ПРОЕКТА:
Морозов Н. В., Максимов Я. В., Тяпкин Д. Н. и др., , in: Volume 267: International Conference on Machine Learning, 13-19 July 2025, Vancouver Convention Center, Vancouver, CanadaVol. 267.: [б.и.], 2025. P. 44887–44910.
Добавлено: 15 октября 2025 г.
Сапронов Ю. Ф., Юдин Н. Е., Computational Mathematics and Mathematical Physics 2025 Vol. 65 No. 3 P. 567–581
We continue to develop the concept of studying the ε-optimal policy for Average Reward Markov Decision Processes (AMDP) by reducing it to Discounted Markov Decision Processes (DMDP). Existing research often stipulates that the discount factor must not fall below a certain threshold. Typically, this threshold is close to one, and as is well-known, iterative methods ...
Добавлено: 10 июня 2025 г.
Герасёв М. С., Kiselev D., Бекетов М. Е. и др., , in: 2024 IEEE International Conference on Data Mining (ICDM) Workshops (ICDMW).: Curran Associates, 2024. P. 887–890.
Добавлено: 27 марта 2025 г.
Морозов Н. В., Тяпкин Д. Н., Самсонов С. В. и др., , in: ICML 2024 Workshop on Structured Probabilistic Inference & Generative Modeling.: OpenReview, 2024.
Добавлено: 24 октября 2024 г.
Anlló H., Bavard S., Benmarrakchi F. и др., Nature Human Behaviour 2024 Vol. 6 No. 8 P. 1554–1567
Добавлено: 17 июля 2024 г.
Косов Е. Д., Journal of Mathematical Analysis and Applications 2021 Vol. 504 No. 1 Article 125358
Добавлено: 1 октября 2021 г.
Яковлев А. Ю., Уточкин И. С., Attention, Perception and Psychophysics 2021 Vol. 83 No. 3 P. 1251–1262
Добавлено: 4 сентября 2020 г.
Челик Л., International Journal of Industrial Organization 2016 Vol. 44 P. 113–122
Добавлено: 3 июня 2016 г.