标签:play 动态 cal examples load src 全面 imu 控制理论
摘要:郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布!
Abstract
Q学习是一种技术,用于基于对使用非最优策略控制的系统的观察来计算受控马尔可夫链的最优策略。事实证明,它对于具有有限状态和动作空间的模型有效。本文建立了具有通用状态空间和通用动作空间的连续时间模型的Q学习与非线性控制之间的联系。主要贡献概述如下。
(i) 出发点是观察到Q学习算法中出现的"Q函数"是最小值原则中出现的Hamiltonian的扩展。基于此观察,我们引入了最速下降Q学习算法,以在规定的函数类中获得Hamiltonian的最优近似。
(ii) 基于预解算子的伴随进行最优性公式的变换。这用于构造基于随机近似的一致算法,该算法仅需要对观察进行因果过滤。
(iii) 给出了几个示例来说明这些技术的应用,包括对多智能体系统的分布式控制的应用。
I. INTRODUCTION
A. Background
Q学习和最小值原则有什么关系?Q学习是一种在不了解系统模型的情况下,基于对状态和输入的观察,计算最优策略及其相关价值函数的技术。Pontryagin‘s最小值原则是Hamilton-Jacobi-Bellman (HJB)方程的精化,该方程描述了最优价值函数。本文认为,非线性控制理论中出现的Hamiltonian与Q学习中感兴趣的Q函数在本质上是相同的。我们发现Q学习和微分动态规划之间也有着密切的联系[10]。通过这种方式,我们在RL和非线性控制研究领域之间架起了一座桥梁。在此过程中,我们介绍了确定性和随机模型的新算法。
在连续时间且通用状态空间的模型中,RL技术全面理论的出现因为几个障碍被放缓。在TD方法的情况下,可以在最近的工作[18]和[16]中找到对连续时间的推广。后者与最近文献[8]中针对扩散模型处理的近似动态规划的线性规划公式密切相关。众所周知,TD学习是收敛的,因为它可以解释为应用于有限维参数空间上凸优化问题的最速下降算法的随机逼近实现[17],[3],[1],[12]。
在Q学习的情况下,障碍更为根本。Watkins在他的论文中介绍了这项技术,并在后面的[20]中给出了一个完整的收敛性证明。文献[2]中包含了一个基于相关“流体极限模型”的初步证明。不幸的是,这些结果是脆弱的,严重依赖于有限的状态空间和有限的行动空间。更重要的是,这些收敛证明需要一个完整的参数化,包括所有可能的马尔可夫模型,其状态空间具有给定的基数。这限制了这些方法的适用性,因为复杂性随着状态空间的大小而增加。文献[11]给出了有限维参数化对一般状态空间的一个推广,但收敛结果本质上是局部的。
对于特殊类别的车型,进展更为积极。对于具有二次成本的确定性线性系统(LQR问题),Q学习的一种变体与自适应策略迭代相结合是收敛的——离散时间的分析见[4],连续时间的类似方法见[19]。最近的工作[15]包含了一种专门为一类排队模型设计的参数化Q-学习的变体。
在本文中,我们将重新审视该算法。我们提出了一个凸优化问题,它表征了给定类中Q函数的最佳逼近,并由此得到了在线计算的有效算法。
B. Q-learning and the Minimum Principle
C. Contributions and overview
II. Q-LEARNING FOR DETERMINISTIC MODELS
A. Bellman error
B. A stationary environment for learning
C. Causal smoothing without bias
D. A convex characterization of the Q-function
E. Total cost criterion
III. EXTENSIONS TO MARKOV MODELS
A. Causal smoothing fails for Bellman error
B. Galerkin relaxation
IV. EXAMPLES
A. Local approximation for a nonlinear system
B. Linear systems
C. Distributed control of multi-agent systems
V. CONCLUSIONS
Q-learning and Pontryagin's Minimum Principle
标签:play 动态 cal examples load src 全面 imu 控制理论
原文地址:https://www.cnblogs.com/lucifer1997/p/14202729.html