码迷,mamicode.com
首页 > 其他好文 > 详细

神经网络调参经验

时间:2019-12-22 16:34:08      阅读:58      评论:0      收藏:0      [点我收藏+]

标签:inf   神经网络   模型   策略   png   alt   采样   图片   ima   

对比Mean 和 Max

如果某些动作路径(从神经网络的策略输出中采样)比平均动作路径好得多,那么通过调整策略就有增加奖励的空间。相反,当这个差距缩小时,模型就收敛了;
技术图片

神经网络调参经验

标签:inf   神经网络   模型   策略   png   alt   采样   图片   ima   

原文地址:https://www.cnblogs.com/twodoge/p/12080024.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!