码迷,mamicode.com
首页 > 其他好文 > 详细

CS294-112 深度强化学习 秋季学期(伯克利)NO.9 Learning policies by imitating optimal controllers

时间:2018-05-28 00:51:40      阅读:153      评论:0      收藏:0      [点我收藏+]

标签:policy   化学   ons   state   强化学习   分享   promise   nbsp   image   

技术分享图片

 

 

 

 技术分享图片

 

 技术分享图片

 

 

 技术分享图片

技术分享图片

 技术分享图片

 

 

 

 技术分享图片

 

 

 

 技术分享图片

 

 

 技术分享图片

 

 

 

 技术分享图片

 

 

 

 技术分享图片

 

 

 

 技术分享图片

 

 

 

 技术分享图片

 

 

 技术分享图片

 

 

 技术分享图片

 

 

 

 

 技术分享图片

 

 

 

 技术分享图片

 

 

 

 

 技术分享图片

 

 

 

 技术分享图片

 

 

 技术分享图片

 

 

 

 技术分享图片

 

 

 技术分享图片技术分享图片技术分享图片

 

 

 

 技术分享图片

 

 

 

 技术分享图片

 

 

 

 技术分享图片

 

 

 

 技术分享图片

 

 

 

 技术分享图片

 

 

 

 技术分享图片

 

 技术分享图片

 

 

 

 技术分享图片

 

make compromise between learnt policy and minimal cost!

                    技术分享图片

 

 

 

 

                     技术分享图片

 

 技术分享图片

 

 技术分享图片

 

 

 技术分享图片

 

 技术分享图片

 

π hat is using states

π theta is using observations

 

                            技术分享图片

 

 

 

 技术分享图片

 

 

 技术分享图片

 

 

 

 

 技术分享图片

 

 

 

 技术分享图片

 

 

 

 技术分享图片

 

 

 技术分享图片

 

 技术分享图片

 

 

 

 技术分享图片

 

CS294-112 深度强化学习 秋季学期(伯克利)NO.9 Learning policies by imitating optimal controllers

标签:policy   化学   ons   state   强化学习   分享   promise   nbsp   image   

原文地址:https://www.cnblogs.com/ecoflex/p/9097988.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!