码迷,mamicode.com
首页 > 其他好文 > 详细

<强化学习> on policy VS off policy

时间:2020-02-20 13:23:09      阅读:102      评论:0      收藏:0      [点我收藏+]

标签:text   自我   ilo   两种   ext   策略   dash   str   mda   

默认价值函数为Q(s,a),策略迭代更新为pai <—— epsilon-greedy(Q)

 

policy是agent的属性,决定了agent面对某状态s时会选择哪个行为a

 

value是agent的感觉,代表着agent对某个(s,a)的感觉,感觉它好感觉它不好

 

 

强化学习迭代过程中,

policy-evaluation是获取agent按照当前policy会产生的所有感觉,即获取Qpai    ;

policy-improvement是根据感觉Q生成一个更好的policy

 

on policy和off policy是policy_evaluation过程中区分的两种方式

Q(s,a) <——r + lamda * Q(s‘,a‘)

on policy是我做了这个行为a之后,后继的所有收获都以我的策略我的眼光来估定;td_target  = r + lamda * Q(s‘,a‘)    ,(s‘,a‘)产自我的policy

off policy是我做了这个行为a之后,后继以别人的眼光别人的策略来固定;              td_target   = r + lamda*Q(s‘,a‘)     , (s‘,a‘)产自别人的policy 

<强化学习> on policy VS off policy

标签:text   自我   ilo   两种   ext   策略   dash   str   mda   

原文地址:https://www.cnblogs.com/dynmi/p/12334734.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!