码迷,mamicode.com
首页 > 其他好文 > 详细

增强学习的基本概念(2)

时间:2017-09-17 13:47:33      阅读:166      评论:0      收藏:0      [点我收藏+]

标签:结束   action   根据   基础算法   学习   贪婪   isod   问题   基本   

对于增强学习的控制问题,有两个著名的基础算法:Sarsa、Q-Learning

(1) Sarsa 算法流程:

   对于所有状态 s 以及动作 a 进行任意初始化,将所有终止状态的 Value-Action 值设为0

  迭代每一训练集episode:

    初始化状态 S

    根据策略Q,按照当前的状态 S,选择动作 A(如:小概率-贪婪算法)

    迭代训练集的每一步:

      采取动作A, 观察奖励值 R 和下一步状态 S’

      根据策略Q,按照下一状态 S’,选择动作 A‘(如:小概率-贪婪算法)

      Q(S,A) := Q(S,A) + α[R+γQ(S‘,A‘) - Q(S,A)]

      S := S‘

      A := A‘

    直到状态S 结束

 

(2) Q-Learning 算法流程:

   对于所有状态 s 以及动作 a 进行任意初始化,将所有终止状态的 Value-Action 值设为0

  迭代每一训练集 episode:

    初始化状态 S

    迭代训练集的每一步 step:

      根据策略Q,按照下一状态 S,选择动作 A(如:小概率-贪婪算法)

      采取动作A, 观察奖励值 R 和下一步状态 S’

      Q(S,A) := Q(S,A) + α[R+γmax(Q(S‘,a)) - Q(S,A)]

      S := S‘

    直到状态S 结束

增强学习的基本概念(2)

标签:结束   action   根据   基础算法   学习   贪婪   isod   问题   基本   

原文地址:http://www.cnblogs.com/swagger2016/p/7534754.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!