标签:cti 方法 apple img 决策树 概率 实现 元组 否则
MDP算法简介:首先MDP算法由五个单元组成(S、A、Psa(s‘)、R、G)
实现过策程的注意点:
如下图所示值函数
状态1为目标状态,状态3为避免状态,状态3为不存在状态
首先1状态和2状态的值在整个替代过程中不能改变,否则值函数不会收敛
其次3状态,不能使用非常低或者高的值函数参与运算,因为一旦参与运算会直接拉低其相邻状态的值函数
策略替代法:未完待续
MDP(MarkovDecisionProcess,马尔卡夫决策树)实现总结
标签:cti 方法 apple img 决策树 概率 实现 元组 否则
原文地址:http://www.cnblogs.com/LinQianXun/p/7053525.html