强化学习介绍

时间：2020-02-04 12:16:47 阅读：71 评论：0 收藏：0 [点我收藏+]

标签：temp ges search 规划 fit mes info 图片 guide

强化学习算法类型

技术图片

策略梯度：可直接区别以上的目标

基于值：估计最优策略（不明确哪个是最优的策略情况下估计）的值函数和Q函数

Actor-critic（演员-评论家）：使用当前策略去估计值函数和Q函数来改进策略

基于模型：估计转换模型，接着

　　　　　1.让该模型去规划不明确的策略

　　　　　2.让该模型去改进策略

　　　　　3.其他

比较：

有监督学习：几乎都是使用梯度下降

强化学习：通常不使用梯度下降

特定算法示例：

• 值函数方法

　　• Q-learning, DQN

　　• Temporal difference learning

　　• Fitted value iteration

• 策略梯度方法

　　• REINFORCE

　　• Natural policy gradient

　　• Trust region policy optimization

• Actor-critic方法

　　• Asynchronous advantage actor-critic (A3C)

　　• Soft actor-critic (SAC)

• Model-based方法

　　• Dyna

　　• Guided policy search

应用举例：

例1: 用Q函数玩Atari games

论文参考：

• Playing Atari with deep reinforcement learning, Mnih et al. ‘13

• Q-learning with convolutional neural networks

技术图片

例2: 机器人和基于模型的强化学习

论文参考：

• End-to-end training of deep visuomotor policies, L.* , Finn* ’16

• Guided policy search (model-based RL) for image-based robotic manipulation

例3: 用策略梯度实现走路

论文参考：

• High-dimensional continuous control with generalized advantage estimation, Schulman et al. ‘16

• Trust region policy optimization with value function approximation

技术图片

例4: 用Q函数实现机器人抓取

论文参考：

• QT-Opt, Kalashnikov et al. ‘18

• Q-learning from images for real-world robotic grasping

技术图片

强化学习介绍

标签：temp ges search 规划 fit mes info 图片 guide

原文地址：https://www.cnblogs.com/phonard/p/12258905.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行