标签:获得 能力 不同的 png 想法 com 灵活 参数化 inf
郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布!
NeurIPS, (2018)
Abstract
我们提出了一种元学习方法,用于学习基于梯度的RL算法。这个想法是要逐步形成一种可微的损失函数,这样智能体就可以通过优化其策略以最大程度地减少这种损失,获得较高的奖励。损失是通过代理经验的时间卷积来参数化的。 由于这种损失在考虑代理历史方面的能力上具有很高的灵活性,因此可以快速学习任务。 实验结果表明,与现成的策略梯度方法相比,我们的进化策略梯度算法(EPG)在几种随机环境下可以更快地学习。 我们还证明,EPG的学习损失可以推广到分布外的测试时间任务,并且表现出与其他流行的金属学习算法不同的行为。
标签:获得 能力 不同的 png 想法 com 灵活 参数化 inf
原文地址:https://www.cnblogs.com/lucifer1997/p/13626894.html