码迷,mamicode.com
首页 > 其他好文 > 详细

Evolved Policy Gradients

时间:2020-09-17 17:24:54      阅读:23      评论:0      收藏:0      [点我收藏+]

标签:获得   能力   不同的   png   想法   com   灵活   参数化   inf   

郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布!

技术图片

 

NeurIPS, (2018)

 

Abstract

  我们提出了一种元学习方法,用于学习基于梯度的RL算法。这个想法是要逐步形成一种可微的损失函数,这样智能体就可以通过优化其策略以最大程度地减少这种损失,获得较高的奖励。损失是通过代理经验的时间卷积来参数化的。 由于这种损失在考虑代理历史方面的能力上具有很高的灵活性,因此可以快速学习任务。 实验结果表明,与现成的策略梯度方法相比,我们的进化策略梯度算法(EPG)在几种随机环境下可以更快地学习。 我们还证明,EPG的学习损失可以推广到分布外的测试时间任务,并且表现出与其他流行的金属学习算法不同的行为。

Evolved Policy Gradients

标签:获得   能力   不同的   png   想法   com   灵活   参数化   inf   

原文地址:https://www.cnblogs.com/lucifer1997/p/13626894.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!