首页 > 其他好文 > 详细

强化学习中的重要概念

时间：2020-04-05 18:40:34 阅读：98 评论：0 收藏：0 [点我收藏+]

标签：alt spi 最优 mat lang roc action bfd 数学

Action Space（行为空间）

定义：在所在环境中所有有效的行为的集合叫行为空间。

一些环境是有离散的行为，对于agent来说是有限的行为，如Atari游戏、Alpha Go。

其他的环境是有连续的行为，如在真实世界的机器人的控制角度等。

Policy（策略）

定义：策略是一种被agent使用去决定采取什么行为的规则。

若该policy是确定性的，通常用μ记为： $技术图片$

若该policy是随机性的，通常用 $技术图片$ 记为： $技术图片$

Trajectories（轨迹）/episodes /rollouts

一个轨迹 $技术图片$ 是真实世界中一系列的状态行为： $技术图片$

状态转移可以是确定性的： $技术图片$

状态转移可以是随机性的： $技术图片$

Reward and Return（奖励和返回）

奖励函数R是基于当前的状态、采取的行为和下一个状态： $技术图片$ 。也常被简化为只依赖于当前状态 $技术图片$ 或状态行为对 $技术图片$ .

第一类返回是有限范围的返回R： $技术图片$

第二类返回是无限范围的返回R： $技术图片$

Value Fuction（值函数）

1.on-policy值函数： $技术图片$ ，时间是有限范围时： $技术图片$ ，时间是无限范围时： $技术图片$

2.on-policy行为值函数： $技术图片$

3.最优值函数： $技术图片$

4.最优行为值函数： $技术图片$

on-policy值函数和on-policy行为值函数关系： $技术图片$

解释：因为技术图片是每采取一个 $技术图片$ 策略采样得到的a所得的奖励值，若根据一个 $技术图片$ 策略采样a执行获得奖励直到程序终止所累积的奖励值期望即为

最优值函数和最优行为值函数的关系： $技术图片$

解释：因为技术图片是执行行为a之后所有Q值中的最大值，也就是V的最大值

说明：Q值是某状态执行某行为之后获得累计奖励的期望，V值是某状态下可以总共获得累计奖励的期望。V值包含Q值。

Bellman equation（贝尔曼方程）

以上所有四个值函数遵守特别的一致性的方程叫作贝尔曼方程。

贝尔曼方程的基本思想：你当前状态的价值是你希望从该状态得到的奖励加上你下一次到达的状态的值。

对于on-policy值函数的贝尔曼方程是：

$技术图片$

其中， $技术图片$ 是 $技术图片$ 的缩写，表示下一次状态是从环境的转移规则上采样得到； $技术图片$ 是 $技术图片$ 的缩写； $技术图片$ 是 $技术图片$ 的缩写

对于最优值函数的贝尔曼方程是：

$技术图片$

在on-policy值函数的贝尔曼方程和最优值函数之间关键的区别是在行为上是否可得到最大值的奖励。

Advantage Fuction（优势函数）

优势函数 $技术图片$ 相当于一个策略 $技术图片$ ，描述的是在状态s下采取一个确切动作a有多好。

数学上，优势函数的定义是 $技术图片$

Markov Decision Processes (MDPs)

一个马尔可夫决策过程是一个五元组 $技术图片$

$技术图片$ 是使用有效状态的集合
$技术图片$ 是所有有效行为的集合
$技术图片$ 是带有 $技术图片$ 的奖励函数
$技术图片$ 是带有在当前状态 $技术图片$ 采取行为 $技术图片$ 转换到状态 $技术图片$ 的概率 $技术图片$ 的转换概率函数
$技术图片$ 起始状态分布.（类似折扣因子γ）

马尔科决策过程说明了系统需要具备马尔可夫性：转换只依赖于当前的状态和行为，而不依赖于先前的历史数据。

五个元组数据如果都已知则为有模型学习，后面三个元组数据如果未知则为无模型学习。

强化学习中的重要概念

标签：alt spi 最优 mat lang roc action bfd 数学

原文地址：https://www.cnblogs.com/phonard/p/12637687.html

踩

(0)

赞

(0)

举报

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

更多

友情链接

兰亭集智国之画百度统计站长统计阿里云 chrome插件新版天听网

关于我们 - 联系我们 - 留言反馈

© 2014 mamicode.com 版权所有联系我们:gaon5@hotmail.com

迷上了代码！