码迷,mamicode.com
首页 > 其他好文 > 详细

分布式强化学习基础概念(Distributional RL )

时间:2018-01-14 18:43:54      阅读:185      评论:0      收藏:0      [点我收藏+]

标签:基础   return   val   基础概念   距离   bubuko   learning   eva   rem   

 

分布式强化学习基础概念(Distributional RL)

 

from: https://mtomassoli.github.io/2017/12/08/distributional_rl/

1. Q-learning

在 Q-learning 中,我们想要优化如下的 loss:

  技术分享图片

Distributional RL 的主要思想是:to work directly with the full distribution of the return rather than with its expectation.

假设随机变量 Z(s, a) 是获得的回报(return),那么:Q(s, a) = E(Z(s, a)) ; 并非像公式(1)中所要最小化的误差那样,也就是 期望的距离。

我们可以直接最小化这两个分布之间的距离,which is a distance between full distribution:

技术分享图片

其中,R(s, a) 是即刻奖赏的随机变量,sup 是函数值的上界的意思,英文解释为:supremum。并且:

技术分享图片

注意的是,我们依然用的是 Q(s, a),但是,此处我们尝试优化 distributions,而不是这些分布的期望。

 

2. Policy Evaluation

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

分布式强化学习基础概念(Distributional RL )

标签:基础   return   val   基础概念   距离   bubuko   learning   eva   rem   

原文地址:https://www.cnblogs.com/wangxiaocvpr/p/8283718.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!