标签:最大化 type image tps src ESS 分享 ext .com
强化学习,主要是主体agent根据处境state,做出行为action,并且最大化奖励reward的过程。开始进行强化学习时,神经网络的系数可随机初始化。依据环境给予的反馈,神经网络可以用预测的奖励和实际奖励之差来调整权重,改进其对状态-动作对的解析。
参考:强化学习DeepLearning4j
强化学习基础介绍
原文地址:http://blog.51cto.com/13927451/2171239