标签:机器学习 强化学习 选择 导致 不同 env 最大 policy .com
一、前述
强化学习是学习一个最优策略(policy),可以让本体(agent)在特定环境(environment)中,根据当前的状态(state),做出行动(action),从而获得最大回报(G or return)。
通俗点说:学习系统没有像很多其它形式的机器学习方法一样被告知应该做出什么行为,必须在尝试了之后才能发现哪些行为会导致奖励的最大化,当前的行为可能不仅仅会影响即时奖励,还会影响下一步的奖励以及后续的所有奖励。
二、具体
1、相关定义
智能体 (agent):我们要操控的实物。比如上述中的车。
状态 (state):当前什么样的环境状态。
行为 (action):下一步的操作。
奖励:对不同的操作结果,都有衡量指标,一个奖励值。
策略:一系列相关行为的组合达到最大的一个奖励值,就是一个策略。
强化学习的过程:先行动,再观察 再行动 再观测…
每一个动作(action)都能影响代理将来的状态(state),通过一个标量的奖励(reward)信号来衡量成功,目标:选择一系列行动来最大化未来的奖励。
小车举例:
标签:机器学习 强化学习 选择 导致 不同 env 最大 policy .com
原文地址:https://www.cnblogs.com/LHWorldBlog/p/9247880.html