码迷,mamicode.com
首页 > 其他好文 > 详细

强化学习(David Silver)1:简介

时间:2017-10-20 21:34:53      阅读:248      评论:0      收藏:0      [点我收藏+]

标签:ble   转移   观察   有奖   用途   algo   另一个   包含   ase   

1、书

《An introduction to Reforcement Learning》Sutton and Barto, 1998,400页

《Algorithms for Reforcement Learning》Szepesvari,2010,偏数学,不到100页

2、强化学习的特点

不存在监督者,有奖励信号;

反馈是延迟的,不是每步都有奖励;

时序很重要(数据不是独立同分布的)

动作决定接下来的环境

3、强化学习的例子

飞机、游戏、股市、发电厂控制、人形机器人行走

4、强化学习基于奖励假设

强化学习的目标是最大化期望累积收益

5、代理和环境

代理:执行动作,接受观察,接收奖励

环境:接收动作,释放观察,释放奖励

6、历史和状态

未来将要发生什么依赖于历史

状态决定未来会发生什么

状态是历史信息的函数

历史内容太多,不易记录,状态可以看做历史信息的简化

6.1、状态环境

环境状态是环境的私有表达;代理接收到观察和奖励,但是往往并不知道环境的状态;即使环境状态可见,往往也包含不相关信息

ps:环境状态在算法中不可用

6.2、动作状态

历史信息的函数;强化学习真正使用到的状态

6.3、信息状态(马尔科夫态)

当前状态仅与上一个状态有关;与其它历史状态无关

6.4、完全观察环境

假设观察=动作状态=信息状态,此时强化学习是一个MDP

6.5、部分观察环境

代理不能直接观察到环境;这是一个POMDP(partially observable MDP)

7、代理的构成

7.1、策略

如何执行东西,是状态到动作的映射,可以是确定性策略,也可以是非确定性策略

7.2、值函数

值定义:对未来奖励的预测

值函数:对状态和/或动作的评估;

类型:状态值函数;动作值函数;无论哪一种形式,都是基于某种策略来说的

用途:动作/状态选择;通过对动作/状态估值,进行策略选择

7.3、模型

模型:预测环境接下来会做什么

类型:转移模型(代理在某个状态下,执行某个动作后,转移向另一个状态的概率)

          奖励模型(代理在某个状态下执行某个动作后,环境给予的奖励)

7.4、代理的分类

ValueBased:无策略;有值函数

PolicyBased:有策略;无值函数

ActorCritic:有策略;有值函数

ModelFree:没有model

强化学习(David Silver)1:简介

标签:ble   转移   观察   有奖   用途   algo   另一个   包含   ase   

原文地址:http://www.cnblogs.com/ai1024/p/7701245.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!