在数学中,马尔可夫决策过程(英语:Markov Decision Process,MDP)是离散时间随机控制过程.它提供了一个数学框架,用于在结果部分随机且部分受决策者控制的情况下对决策建模。MDP对于研究通过动态规划解决的优化问题很有用。MDP至少早在1950年代就已为人所知;一个对马尔可夫决策过程的核心研究是 罗纳德·霍华德于1960年出版的《动态规划和马尔可夫过程》.它们被用于许多领域,包括机器人学,自动化,经济学和制造业。MDP的名称来自俄罗斯数学家安德雷·马尔可夫,因为它们是马尔可夫链的推广。

马尔可夫决策过程是马尔可夫链的推广,不同之处在于添加了行动(允许选择)和奖励(给予动机)。反过来说,如果每个状态只存在一个操作和所有的奖励都是一样的,一个马尔可夫决策过程可以归结为一个马尔可夫链。

状态和行动空间可能是有限的,也可能是无限的。一些具有可数无限状态和行动空间的过程可以简化为具有有限状态和行动空间的过程。

版权声明: 本博客所有文章除特别声明外,均采用 CC BY-NC-ND 4.0 许可协议。转载请注明来源 sfc9982 !