动态规划（一）

时间：2017-07-07 21:37:13 阅读：224 评论：0 收藏：0 [点我收藏+]

最优化问题

最优化问题

动态规划(Dynamic programming)是用来优化一个随机问题的最优解。随机问题是仅仅我们优化的目标是随机的，最优解指的是在统计平均上的最优。

比較权威的參考资料：Dimiri P. Bertsekas, Dynamic Programming and Optimal Control, 3rd ed., Athena Scientific, Belmont, Massachusetts,2005

一般优化问题描写叙述

m i n u \in U g (u)

$\mathop {min}\limits_{u\in \mathcal{U}} g(u)$

$~u~$ 是最优化问题的决策
$~g(u)~$ 是决策的代价函数
$~\mathcal{U}~$ 是全部决策 $~u_i~$ 的集合

动态规划的优化问题能够分为：
1. 随机优化问题：
由于代价函数存在一个随机变量 $w$ ，因此最优解的优化目标是代价函数的统计平均。

g(u)=EwG(u,w)
1. 确定优化问题：
这个问题代价函数是一个确定函数。

怎样区分这两个问题呢？我们能够观察系统是否存在随机性，这个随机性是体如今系统之中的，而不是这个系统。

举个栗子，优化一个随机网络是个确定性问题，即给定随意网络结构，找到最短路径。由于网络尽管是随机的，可是优化的目标在确定以后是不变的。

然而优化一个随时变化的网络是一个随机问题。即一边进行优化。网络结构一边在变的问题。
动态规划正是能够解决每个步骤都有随机变量 $~w~$ 影响的目标函数，怎样在全局取得统计平均上最优解的问题。后面我们能够看到每个决策都会利用 $~w~$ 的信息。

随机动态规划的结构

离散时间系统

x k + 1 = f k (x k, u k, w k), k = 0, 1, \dots, N ? 1

$x_{k+1} =f_k(x_k,u_k,w_k), k=0,1,\ldots,N-1$

当中：

$~k~$ ：表示离散 $\color{red}{时间}$ （也能够看作是步骤）。
$~x_k~$ ：表示在时间 $~k~$ 的 $\color{red}{状态}$ ，该状态具有马尔科夫性，即当前状态已经包括决策所须要的各种信息，与之前的状态无关。当前状态将会參与决策。
$~u_k~$ ：表示在时间 $~k~$ 所输出的 $\color{red}{控制}$ ，即再时间 $~k~$ 在集合 $~\mathcal{U}~$ 中选择的控制信息。
$~w_k~$ ：是一个 $\color{red}{随机变量}$ ，这个随机变量将会影响代价函数。
$~N~$ ：表示控制的窗体时间。

离散时间系统代价函数

E {\sum k = 0 N ? 1 g k (x k, u k, w k) + g N (x N)}

$E\left\{\sum\limits_{k=0}^{N-1} g_k(x_k,u_k,w_k)~+~g_N(x_N)\right\}$

我们的优化目标就是优化这个系统的平均代价。

能够看到这个代价是每个决策的代价和终于状态代价的统计平均。

反馈

前面描写叙述了动态规划的目的，动态规划为了优化一个随机函数。

它的解是平均意义上的最优，并非每次都是最优。动态规划问题能够分为随机优化问题以及确定优化问题。当中确定优化问题能够每次都取得最优解（算法导论上面介绍的就是确定优化问题，这仅仅是动态优化的冰山一角。）。

动态规划除了能够分为随机动态规划和确定动态规划，还能够分为带反馈和不带反馈(feed back)。也有人叫做开环(open-loop)和闭环(closed-loop)。这个命名可能会导致我们理解错误。

由于，反馈并非指的前一级对后一级的反馈。而是当前状态 $x_k$ 依据 $w_k$ 得出的 $u_k$ 导致的状态跳转。

如图：技术分享

可见反馈真正的意义是，依据如今的状态以及信息 $w_k$ 做决策做决策，并记录这个过程的状态跳转。

第一个栗子：随机动态优化问题

如果系统是一个零售商的进货系统。进货是周期性的。如果一个周期需求是 $~w_k~$ 显然需求是一个随机变量，库存是 $~x_k~$ 。同一时候也表示这个系统的状态。我们的进货量 $~u_k~$ 也就是我们的决策。所以每一次周期完成后的库存能够表示为 $x_{k+1}~=~x_k+u_k-w_k$ 。

因此我们能够建立例如以下模型：

技术分享

这个离散时间系统就能够描写叙述为：

x k + 1 = f k (x k, u k, w k) = x k + u k ? w k

$x_{k+1}~=~f_k(x_k,u_k,w_k)~=~x_k+u_k-w_k$

其代价函数会随着时间叠加，所以这个系统的代价函数为：

E {\sum k = 0 N ? 1 (c u k + r (x k)) + R (x N)}

$E\left\{\sum\limits_{k=0}^{N-1}(cu_k+r(x_k))+R(x_N)\right\}$

我们能够看到每个周期其代价都会叠加，到最后会有一个终于状态的代价（为什么有这个代价呢？最好还是如果没有这个代价，在第 $N-2$ 个周期我们进货量为正无穷。定能满足需求。

可是这明显是不合理的。

）

第二个栗子：确定动态优化问题

确定一个确定系统操作顺序问题：我们要找到A,B,C,D的最佳操作顺序。

当中有几个限制：
1. A必须在B之前运行，C必须在D之前运行
2. 必须从A和C開始，即起始状态必须为: $S_A$ 或者 $S_C$
3. 状态 $~m~$ 到 $~n~$ 的跳转代价是 $~C_{mn}~$
则能够画出一个相似二叉树的图：
技术分享

显然仅仅须要遍历整个图我们就可以找到一个最优解。

第三个栗子：来点复杂的无线网络问题

系统描写叙述：我们须要在 $~N~$ 个时隙中发送 $~M~$ 个数据包，当中有几个限制：
1. 信道条件有两种：好的（概率为： $p$ ）。坏的（概率为： $~1-p~$ ）
2. 在好的和坏的信道以下都能够传包。不同信道条件下传包的代价不同。好信道的代价为 $~P_G~$ 。

坏的信道的代价为 $~P_B~$
3. $~N~$ 个发送时隙完成后，最后剩余 $~m~$ 个数据包的代价为 $~C(m)~$

以下我们依据已知的知识对系统建模：

系统状态： $~(m_k,H_k)~$ ： $~m_k~$ 表示剩余数据包的数量， $~H_k~$ 表示信道条件。
控制信息： $~u_k~$ 有两个取值，0（表示不发送），1（表示发送）。
随机变量 $~w~$ :表示信道变化
系统描写叙述： $m_{k+1} = m_k - u_k, H_{k+1} = w_k$
开销函数：
$E {\sum k = 0 N ? 1 g ((m k, H k), u k) + C (m N)}$ $E\left\{\sum\limits_{k=0}^{N-1} g((m_k,H_k),u_k)+C(m_N)\right\}$
问题解答见：http://blog.csdn.net/sylar_d/article/details/50900521

小结

经过以上栗子我们看出，动态规划问题具有以下几点特性：
1. 控制是局部的，仅仅取决于当前的状态 $x_k$
2. 状态具有马尔科夫性。

3. 动态规划系统具有以下特性：

系统描写叙述： $~x_{k+1}=f_k(x_k,u_k,w_k),k=0,1,\ldots,N-1~$
控制约束： $~u_k \in \mathcal{U}(x_k)~$
随机概率分布： $~P_k(w_k) = P_k(·|x_k,u_k)~$
策略：有一系列的策略 $~\pi=\{\mu_0,\ldots,\mu_{N-1}\}~$ 当中每个 $~\mu_k~$ 都将状态 $~x_k~$ 依照映射 $~u_k = \mu_k(x_k)~$ 映射成为一个决策。
代价函数：从 $x_0$ 開始的策略 $~\pi~$ 的代价函数为：
$J π (x 0) = E {\sum k = 0 N ? 1 g k (x k, μ k (x k), w k) + g N (x N)}$ $J_{\pi}(x_0) = E\left\{\sum\limits_{k=0}^{N-1}g_k(x_k,\mu_k(x_k),w_k)+g_N(x_N)\right\}$
最优策略：
$J ? (x 0) = m i n π J π (x 0)$ $J^*(x_0) = \mathop {min}\limits_{\pi}J_{\pi}(x_0)$
最优策略 $~\pi^*~$ 必须满足：
$J π ? (x 0) = J ? (x 0)$ $J_{\pi^*}(x_0) = J^*(x_0)$

动态规划（一）

标签：变量 absolute 意义 size i++ img 最优统计 pre

原文地址：http://www.cnblogs.com/jhcelue/p/7133839.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行