码迷,mamicode.com
首页 > 其他好文 > 详细

Deep RL Bootcamp Lecture 4A: Policy Gradients

时间:2018-04-30 21:07:36      阅读:131      评论:0      收藏:0      [点我收藏+]

标签:nts   about   ima   rand   ram   pos   could   .com   algorithm   

技术分享图片

 

 

 

 

技术分享图片

 

 

 

 

 

 

技术分享图片

 

 

 

 

技术分享图片

 

 

 

 

 

 

 技术分享图片

技术分享图片

in policy gradient, "a" is replaced by "u" usually.

 

 

 

 技术分享图片

 

 

 

 

 

 技术分享图片

 

 

 

技术分享图片

 

 

 

 

 

 

 技术分享图片

 

 

 

 技术分享图片

技术分享图片

 

 

 

 

 

技术分享图片

 

 

 

 

 

 技术分享图片

 

 

 

 技术分享图片

技术分享图片

 

 use this new form to estimate how good the update is.

 

 

 技术分享图片

 

 

 

 

 技术分享图片

技术分享图片

If all three path show positive reward, should the policy increase the posibility of all the sampling?

 

  

 技术分享图片

 

 

 

 

 技术分享图片

 

 

 

 

 

 

技术分享图片

 

 

 

 

 

 技术分享图片

 

 monte carlo estimate

 

 

 

 

 技术分享图片

TD estimate

 

 

 技术分享图片

 

 

 

 

 

 技术分享图片

 

 

 技术分享图片

 

 

 

 

 技术分享图片

 

 

 

 

 

 

 

技术分享图片

 

 

 

 

 

 

 

 

 

技术分享图片

 

 

 技术分享图片

 

 

 技术分享图片

 

 

 

 

 

 技术分享图片

 

 

 

 技术分享图片

2 weeks to train as respect to real world time scale.

but could be faster in emulator (MOJOCO).  

we don‘t know whether a set of hyperparameter is going to work until enough interations have past. So it‘s kind of tricky, and using emulator could alleviate this problem.

 

 

question: how to transform learnt knowledge of robot to real life if we are not sure about the match between simulator and real world?

Randomly initilize many simulator and see the robustness of the algorithm

 

 

 技术分享图片

 

 

 

 

 

 技术分享图片

this video shows that even a robot with two years of endeavor of a group of experts still isn‘t good at locomotion

 

 

 

 

hindsight experience replay

Marcin Richard from OpenAI

the program is set to find the best way to get pizza, but when the agent find a ice cream, the agent realizes that ice cream, corresponding to a higher reward, is the exact thing it wants to get. 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Deep RL Bootcamp Lecture 4A: Policy Gradients

标签:nts   about   ima   rand   ram   pos   could   .com   algorithm   

原文地址:https://www.cnblogs.com/ecoflex/p/8974602.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!