首页 > 其他好文 > 详细

MDP：马尔科夫决策过程（一）

时间：2015-03-20 10:42:02 阅读：140 评论：0 收藏：0 [点我收藏+]

标签：

MDP：马尔科夫决策过程（Markov Decision Process）

定义：

一个马尔可夫模型包括如下部分

状态集 S (States)
动作集 A (Actions)
奖惩函数 R (reward function)
在状态 s 下，执行 a 动作的影响函数 T

我们假设执行动作 a 的效果只与当前状态有关，与之前历史状态无关。

动作表示：分为 确定性动作（Determinstic Actions） 和 随机性动作（Stochastic Actions）

确定性动作：T：S × A -> S，对于每一个状态和动作可以确定下一个状态
随机性动作：T：S × A -> Prob(S)，对于每一个状态和动作可以确定下一个状态的概率分布

策略π （Pai）：表示当前状态 s 选择怎样的动作 a

策略π的执行过程：

确定当前状态
根据当前状态，按照策略 π 执行动作 a
执行1

所谓全观测（Fully Observation）就是执行动作 a 到达的下一状态 s ，系统是可以知道的

MDP：马尔科夫决策过程（一）

标签：

原文地址：http://www.cnblogs.com/coolalan/p/4298109.html

踩

(0)

赞

(0)

举报

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

更多

友情链接

兰亭集智国之画百度统计站长统计阿里云 chrome插件新版天听网

关于我们 - 联系我们 - 留言反馈

© 2014 mamicode.com 版权所有联系我们:gaon5@hotmail.com

迷上了代码！