标签:ons 数值 最大 pom 使用 影响 max 控制 lock
课件:Lecture 1: Introduction to Reinforcement Learning
视频:David Silver深度强化学习第1课 - 简介 (中文字幕)
作为机器学习的一个分支,强化学习主要的特征为:
无监督,仅有奖励信号;
反馈有延迟,不是瞬时的;
时间是重要的(由于是时序数据,不是独立同分布的);
Agent的动作会影响后续得到的数据;
奖励 \(R_t\) 是一个标量的反馈信号,表示Agent在 \(t\) 时刻的表现如何.
Agent的目标: 最大化累积奖励(maximise cumulative reward).
强化学习基于奖励假设(reward hypothesis).
奖励假设(Reward Hypothesis):
所有强化学习任务的目标都可以被描述为最大化期望累积奖励.
目标: 选择合适的动作最大化将来的累积奖励.
智能体在每个时刻\(t\)会:
而环境则会:
历史(History):由一系列观测,动作和奖励构成.
\[ H_t = O_1, R_1, A_1, \dots, A_{t-1}, O_t, R_t \]
下一步将发生什么取决于历史:
状态(State):用来决定接下来会发生什么的信息.
状态是历史的函数:
\[ S_t = f(H_t) \]
环境状态 \(S_{t}^{e}\) 是环境的私有表示,通常对于智能体来说该状态不可见.
即使\(S_{t}^{e}\)可见,也可能包含不相关信息.
智能体状态 \(S_{t}^{a}\) 是智能体的内部表示,包含其用来决定下一步动作的信息,也是强化学习算法使用的信息.
可以写成历史的函数: \(S_{t}^{a} = f(H_t)\)
信息状态(也称为马尔科夫状态): 包含历史中所有有用的信息.
其中,环境状态\(S_t^e\)和历史\(H_t\)具有马尔科夫性质.
假如个体状态=序列中的后三个事件(不包括电击、获得奶酪,下同),事件序列3的结果会是什么? (答案是:电击)
假如个体状态=亮灯、响铃和拉电闸各自事件发生的次数,那么事件序列3的结果又是什么? (答案是:奶酪)
假如个体状态=完整的事件序列,那结果又是什么? (答案是:未知)
完全可观测性(Full observability): 智能体可以直接观测到环境状态,即
\[
O_t = S_t^a = S_t^e
\]
部分可观测性(Partial observability): 智能体不能够直接观测到环境.
如,机器人不能通过摄像头得知自身的绝对位置.
此时,智能体必须构建其自身的状态表示 \(S_t^a\),比如:
智能体主要包含以下几种成分:
值函数是对于未来奖励的预测.
\[ v_{\pi}(s) = \mathbb{E}_{\pi} \left[ R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + \dots | S_{t} = s \right] \]
模型用来预测环境接下来会做什么.
策略表示:
箭头表示每个状态的策略 \(\pi(s)\).
值函数表示:
数值表示每个状态的值 \(v_{\pi}(s)\).
模型表示:
智能体可能对环境建立内部模型
按智能体的成分分类:
或者按有无模型分类:
强化学习
智能体提升其策略.
智能体提升其策略
强化学习是一种试错(trial-and-error)学习.
智能体需要从与环境的交互中找到一种好的策略,同时不损失过多的奖励.
探索和利用同等重要,即使根据已有信息选择出的最优动作可以得到不错的奖励,不妨尝试全新的动作对环境进行探索,也许可以得到更好的结果.
David Silver强化学习Lecture1:强化学习简介
标签:ons 数值 最大 pom 使用 影响 max 控制 lock
原文地址:https://www.cnblogs.com/orzyt/p/10440517.html