码迷,mamicode.com
首页 > 其他好文 > 详细

强化学习中的重要概念

时间:2020-04-05 18:40:34      阅读:98      评论:0      收藏:0      [点我收藏+]

标签:alt   spi   最优   mat   lang   roc   action   bfd   数学   

 

Action Space(行为空间)

定义:在所在环境中所有有效的行为的集合叫行为空间。

一些环境是有离散的行为,对于agent来说是有限的行为,如Atari游戏、Alpha Go。

其他的环境是有连续的行为,如在真实世界的机器人的控制角度等。

 

 

Policy(策略)

定义:策略是一种被agent使用去决定采取什么行为的规则。

若该policy是确定性的,通常用μ记为:技术图片

若该policy是随机性的,通常用技术图片记为:技术图片

 

 

Trajectories(轨迹)/episodes /rollouts

 一个轨迹技术图片是真实世界中一系列的状态行为:技术图片

状态转移可以是确定性的:技术图片

状态转移可以是随机性的:技术图片

 

 

Reward and Return(奖励和返回)

奖励函数R是基于当前的状态、采取的行为和下一个状态:技术图片。也常被简化为只依赖于当前状态 技术图片或状态行为对 技术图片.

第一类返回是有限范围的返回R:技术图片

第二类返回是无限范围的返回R:技术图片

 

 

Value Fuction(值函数)

1.on-policy值函数 :技术图片,时间是有限范围时:技术图片,时间是无限范围时:技术图片

 2.on-policy行为值函数:技术图片

3.最优值函数:技术图片

4.最优行为值函数:技术图片

 on-policy值函数和on-policy行为值函数关系:技术图片

解释:因为技术图片是每采取一个技术图片策略采样得到的a所得的奖励值,若根据一个技术图片策略采样a执行获得奖励直到程序终止所累积的奖励值期望即为技术图片

 最优值函数和最优行为值函数的关系:技术图片

解释:因为技术图片是执行行为a之后所有Q值中的最大值,也就是V的最大值技术图片

 说明:Q值是某状态执行某行为之后获得累计奖励的期望,V值是某状态下可以总共获得累计奖励的期望。V值包含Q值。

 

 

Bellman equation(贝尔曼方程)

以上所有四个值函数遵守特别的一致性的方程叫作贝尔曼方程。

贝尔曼方程的基本思想:你当前状态的价值是你希望从该状态得到的奖励加上你下一次到达的状态的值。

对于on-policy值函数的贝尔曼方程是:

技术图片

 其中, 技术图片 是 技术图片的缩写,表示下一次状态技术图片是从环境的转移规则上采样得到; 技术图片 是 技术图片的缩写;技术图片 是技术图片的缩写

对于最优值函数的贝尔曼方程是:

技术图片

在on-policy值函数的贝尔曼方程和最优值函数之间关键的区别是在行为上是否可得到最大值的奖励。

 

 

Advantage Fuction(优势函数)

优势函数 技术图片相当于一个策略 技术图片,描述的是在状态s下采取一个确切动作a有多好。

数学上,优势函数的定义是技术图片

 

 

Markov Decision Processes (MDPs)

一个马尔可夫决策过程是一个五元组技术图片

  • 技术图片 是使用有效状态的集合
  • 技术图片 是所有有效行为的集合
  • 技术图片 是带有 技术图片的奖励函数
  • 技术图片 是带有在当前状态 技术图片 采取行为技术图片转换到状态 技术图片的概率技术图片的转换概率函数
  •  技术图片 起始状态分布.(类似折扣因子γ)
马尔科决策过程说明了系统需要具备马尔可夫性:转换只依赖于当前的状态和行为,而不依赖于先前的历史数据。
五个元组数据如果都已知则为有模型学习,后面三个元组数据如果未知则为无模型学习。

 

强化学习中的重要概念

标签:alt   spi   最优   mat   lang   roc   action   bfd   数学   

原文地址:https://www.cnblogs.com/phonard/p/12637687.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!