标签:inf 神经网络 模型 策略 png alt 采样 图片 ima
如果某些动作路径(从神经网络的策略输出中采样)比平均动作路径好得多,那么通过调整策略就有增加奖励的空间。相反,当这个差距缩小时,模型就收敛了;
神经网络调参经验
原文地址:https://www.cnblogs.com/twodoge/p/12080024.html