标签:
MDP:马尔科夫决策过程(Markov Decision Process)
一个马尔可夫模型包括如下部分
我们假设执行动作 a 的效果只与当前状态有关,与之前历史状态无关。
动作表示:分为 确定性动作(Determinstic Actions) 和 随机性动作(Stochastic Actions)
策略π (Pai):表示当前状态 s 选择怎样的动作 a
策略π的执行过程:
所谓全观测 (Fully Observation)就是执行动作 a 到达的下一状态 s ,系统是可以知道的
标签:
原文地址:http://www.cnblogs.com/coolalan/p/4298109.html