标签:算法 q-learning
阅读的文献中涉及到了Q-learning,是与机器学习有关的,虽然与自己方向并不相关。但作为一种思想值得学习。故翻译如下,不当之处,恳请批评指正!这篇教程通过一个简单而且好理解的数字例子来介绍Q-Learning的概念。这个例子描述了一个Agent是如何通过无监督训练(unsupervised training)来学习一个未知环境的。将下面的这个例子与之后的源代码的例子相比较会让你觉得很有帮助。假设在一个建筑物中我们有五个房间,这五个房间通过门相连接,如下图所示:将房间从0-4编号,外面可以认为是一个大房间,编号为5.注意到1、4房间和5是相通的。
我们可以把这些房间和门化成一个图,每个节点代表一个房间,每个连接代表一个门。
对这个例子来说,我们可以把Agent放到任何一个房间中,然后从这个房间走出这个建筑物(这就是我们的目标房间,即房间5)。为了把5号房间设成目标房间,我们为每一扇门(节点之间的连接线)分配一个回报值。直接通向目标的门的回报值为100,没有与目标房间直接相连的其他门的回报值为0。因为门都是双向的(0可以到4,4也可以到0),因此每个门由两个箭头来表示。每个箭头都有有一个立即回报值,如下所示:
假设我们要为一个Agent从这个建筑物中任何一个房间撤离出去来简单建模,假设我们有一个Agent在房间2中,我们想让这个Agent学着到达这个建筑物的外面。
我们称包括建筑物外面的所有房间为状态,Agent从一个房间到另一个房间的移动为动作,在图中,一个状态被画成一个节点,而一个动作被箭头表示出来。
我们可以把状态图和即时回报值填入下面的回报表中,即R矩阵
标签:算法 q-learning
原文地址:http://blog.csdn.net/suozqwp/article/details/44175283