码迷,mamicode.com
首页 > 其他好文 > 详细

强化学习---A3C

时间:2019-01-11 18:01:49      阅读:197      评论:0      收藏:0      [点我收藏+]

标签:推送   async   syn   bsp   方式   http   tor   src   自己的   

Asynchronous Advantage Actor-Critic (A3C) 

A3C 的算法实际上就是将 Actor-Critic 放在了多个线程中进行同步训练. 可以想象成几个人同时在玩一样的游戏, 而他们玩游戏的经验都会同步上传到一个中央大脑. 然后他们又从中央大脑中获取最新的玩游戏方法.

这样, 对于这几个人, 他们的好处是: 中央大脑汇集了所有人的经验, 是最会玩游戏的一个, 他们能时不时获取到中央大脑的必杀招, 用在自己的场景中.

对于中央大脑的好处是: 中央大脑最怕一个人的连续性更新, 不只基于一个人推送更新这种方式能打消这种连续性. 使中央大脑不必有用像 DQNDDPG 那样的记忆库也能很好的更新.

技术分享图片

 

 

技术分享图片

 

强化学习---A3C

标签:推送   async   syn   bsp   方式   http   tor   src   自己的   

原文地址:https://www.cnblogs.com/zle1992/p/10252741.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!