强凸、平滑与共轭

时间：2015-05-06 17:26:11 阅读：135 评论：0 收藏：0 [点我收藏+]

标签：

本文主要包含如下3部分内容：

$\lambda$-强凸函数的定义和性质。
$\mu$-平滑函数的定义和性质。
通过共轭次梯度定理建立起上面两个概念之间的一个联系。

　　定义1[强凸函数]：若函数$f(\cdot)$是集合$C$上的$\lambda$-强凸函数，那么$f(\cdot) - \frac{\lambda}{2} \|\cdot\|^2$是$C$上的凸函数。

　　直观来说，一个函数若是强凸函数，它至少要跟二次函数一样“陡峭”，它还有如下一些等价的描述：

　　命题2：函数$f$是集合$C$上的$\lambda$-强凸函数当且仅当对于$\forall \boldsymbol{x}, \boldsymbol{y} \in C$和$\forall \alpha \in [0, 1]$，有\begin{align*}\alpha f(\boldsymbol{x}) + (1 - \alpha) f(\boldsymbol{y}) \geq f(\alpha \boldsymbol{x} + (1 - \alpha) \boldsymbol{y}) + \frac{\lambda \alpha (1 - \alpha)}{2} \| \boldsymbol{x} - \boldsymbol{y} \|^2 \end{align*}成立。

　　证明：由于$f(\cdot) - \frac{\lambda}{2} \|\cdot\|^2$是凸函数，于是\begin{align*} \alpha \left( f(\boldsymbol{x}) - \frac{\lambda}{2} \|\boldsymbol{x} \|^2 \right) + (1 - \alpha) \left( f(\boldsymbol{y} ) - \frac{\lambda}{2} \|\boldsymbol{y} \|^2 \right) \geq f(\alpha \boldsymbol{x} + (1 - \alpha) \boldsymbol{y}) - \frac{\lambda}{2} \| \alpha \boldsymbol{x} + (1 - \alpha) \boldsymbol{y} \|^2 \end{align*}移项整理得\begin{align*} \alpha f(\boldsymbol{x}) + (1 - \alpha) f(\boldsymbol{y}) & \geq f(\alpha \boldsymbol{x} + (1 - \alpha) \boldsymbol{y}) + \frac{\lambda}{2} \alpha \|\boldsymbol{x} \|^2 + \frac{\lambda}{2} (1 - \alpha) \|\boldsymbol{y} \|^2 - \frac{\lambda}{2} \| \alpha \boldsymbol{x} + (1 - \alpha) \boldsymbol{y} \|^2 \\ & = f(\alpha \boldsymbol{x} + (1 - \alpha) \boldsymbol{y}) + \frac{\lambda}{2} ( \alpha (1 - \alpha) \|\boldsymbol{x} \|^2 + \alpha (1 - \alpha) \|\boldsymbol{y} \|^2 - 2 \alpha (1 - \alpha) \boldsymbol{x} ^\top \boldsymbol{y} ) \\ & = f(\alpha \boldsymbol{x} + (1 - \alpha) \boldsymbol{y}) + \frac{\lambda \alpha (1 - \alpha)}{2} \| \boldsymbol{x} - \boldsymbol{y} \|^2 \end{align*}

　　命题3[唯一性]：若函数$f$是$\lambda$-强凸函数，那么它的最小值点是唯一的。

　　证明：不妨假设$\boldsymbol{x} $和$\boldsymbol{y} $都是$f$的最小值点，即$f(\boldsymbol{x} ) = f(\boldsymbol{y} )$，令命题2中的$\alpha=\frac{1}{2}$有\begin{align*} f(\boldsymbol{x}) \geq f\left(\frac{\boldsymbol{x} + \boldsymbol{y}}{2}\right) + \frac{\lambda}{8} \| \boldsymbol{x} - \boldsymbol{y} \|^2 \geq f\left(\frac{\boldsymbol{x} + \boldsymbol{y}}{2}\right) \geq f(\boldsymbol{x}) \end{align*}上式所有不等号只能全部取等号，故$\boldsymbol{x} =\boldsymbol{y} $，也即最小值点是唯一的。

　　命题4[一阶性质]：函数$f$是集合$C$上的$\lambda$-强凸函数当且仅当对于$\forall \boldsymbol{x}, \boldsymbol{y} \in C$有\begin{align} \label{equ: first order} \forall \boldsymbol{g} \in \partial f(\boldsymbol{x} ), \ f(\boldsymbol{y}) \geq f(\boldsymbol{x}) + \boldsymbol{g} ^\top (\boldsymbol{y} - \boldsymbol{x} ) + \frac{\lambda}{2} \| \boldsymbol{y} - \boldsymbol{x} \|^2 \end{align}

　　证明：一方面由$f$是$\lambda$-强凸函数知对$\forall \boldsymbol{g} \in \partial f(\boldsymbol{x} )$有\begin{align*} f(\boldsymbol{y}) - \frac{\lambda}{2} \|\boldsymbol{y} \|^2 \geq f(\boldsymbol{x}) - \frac{\lambda}{2} \|\boldsymbol{x} \|^2 + (\boldsymbol{g} - \lambda \boldsymbol{x} )^\top (\boldsymbol{y} - \boldsymbol{x}) \end{align*}移项整理得\begin{align*} f(\boldsymbol{y}) & \geq f(\boldsymbol{x}) + \boldsymbol{g} ^\top (\boldsymbol{y} - \boldsymbol{x} ) + \frac{\lambda}{2} \|\boldsymbol{y} \|^2 - \frac{\lambda}{2} \|\boldsymbol{x} \|^2 - \lambda \boldsymbol{x} ^\top (\boldsymbol{y} - \boldsymbol{x} ) \\ & = f(\boldsymbol{x}) + \boldsymbol{g} ^\top (\boldsymbol{y} - \boldsymbol{x} ) + \frac{\lambda}{2} \|\boldsymbol{y} \|^2 - \lambda \boldsymbol{x} ^\top \boldsymbol{y} + \frac{\lambda}{2} \|\boldsymbol{x} \|^2 \\ & = f(\boldsymbol{x}) + \boldsymbol{g} ^\top (\boldsymbol{y} - \boldsymbol{x} ) + \frac{\lambda}{2} \| \boldsymbol{y} - \boldsymbol{x} \|^2 \end{align*}另一方面，记$\boldsymbol{z} = \alpha \boldsymbol{x} + (1-\alpha)\boldsymbol{y} $，由式(\ref{equ: first order}) 知对$\forall \boldsymbol{g} \in \partial f(\boldsymbol{z} )$有\begin{align} \label{equ: first order proof 1} f(\boldsymbol{x}) & \geq f(\boldsymbol{z}) + \boldsymbol{g} ^\top (\boldsymbol{x} - \boldsymbol{z} ) + \frac{\lambda}{2} \| \boldsymbol{x} - \boldsymbol{z} \|^2 = f(\boldsymbol{z}) + \boldsymbol{g} ^\top (\boldsymbol{x} - \boldsymbol{z} ) + \frac{\lambda}{2} (1 - \alpha)^2 \| \boldsymbol{x} - \boldsymbol{y} \|^2 \\ \label{equ: first order proof 2} f(\boldsymbol{y}) & \geq f(\boldsymbol{z}) + \boldsymbol{g} ^\top (\boldsymbol{y} - \boldsymbol{z} ) + \frac{\lambda}{2} \| \boldsymbol{y} - \boldsymbol{z} \|^2 = f(\boldsymbol{z}) + \boldsymbol{g} ^\top (\boldsymbol{y} - \boldsymbol{z} ) + \frac{\lambda}{2} \alpha^2 \| \boldsymbol{y} - \boldsymbol{x} \|^2 \end{align}$(\ref{equ: first order proof 1})\times \alpha + (\ref{equ: first order proof 2}) \times (1-\alpha)$可得\begin{align*} \alpha f(\boldsymbol{x}) + (1-\alpha) f(\boldsymbol{y}) & \geq f(\boldsymbol{z}) + \frac{\lambda}{2} (1 - \alpha)^2 \alpha \| \boldsymbol{x} - \boldsymbol{y} \|^2 + \frac{\lambda}{2} \alpha^2 (1 - \alpha) \| \boldsymbol{y} - \boldsymbol{x} \|^2 \\ & = f(\alpha \boldsymbol{x} + (1-\alpha)\boldsymbol{y} ) + \frac{\lambda}{2} \alpha (1 - \alpha) \| \boldsymbol{x} - \boldsymbol{y} \|^2 \end{align*}由命题2知$f$是$\lambda$-强凸函数。

　　命题5：若函数$f$是集合$C$上的可微函数，那么$f$是$\lambda$-强凸函数当且仅当对于$\forall \boldsymbol{x}, \boldsymbol{y} \in C$有\begin{align*} (\nabla f(\boldsymbol{y} ) - \nabla f(\boldsymbol{x} ))^\top (\boldsymbol{y} - \boldsymbol{x} ) \geq \lambda \| \boldsymbol{y} - \boldsymbol{x} \|^2 \end{align*}此外，若$f$二阶可微，$f$是$\lambda$-强凸函数的一个充分条件是\begin{align*} \boldsymbol{x} ^\top \nabla^2 f(\boldsymbol{y} ) \boldsymbol{x} \geq \frac{\lambda}{2} \|\boldsymbol{x} \|^2, \ \forall \boldsymbol{y} , \boldsymbol{x} \end{align*}

　　证明：一方面，由命题4知\begin{align*} f(\boldsymbol{y}) \geq f(\boldsymbol{x}) + \nabla f(\boldsymbol{x} )^\top (\boldsymbol{y} - \boldsymbol{x} ) + \frac{\lambda}{2} \| \boldsymbol{y} - \boldsymbol{x} \|^2 \\ f(\boldsymbol{x}) \geq f(\boldsymbol{y}) + \nabla f(\boldsymbol{y} )^\top (\boldsymbol{x} - \boldsymbol{y} ) + \frac{\lambda}{2} \| \boldsymbol{x} - \boldsymbol{y} \|^2 \end{align*}移项相加得\begin{align*} (\nabla f(\boldsymbol{y} ) - \nabla f(\boldsymbol{x} ))^\top (\boldsymbol{y} - \boldsymbol{x} ) \geq \lambda \| \boldsymbol{y} - \boldsymbol{x} \|^2 \end{align*}
　　另一方面，记$h(\alpha) = f(\boldsymbol{y} + \alpha (\boldsymbol{x} - \boldsymbol{y} ))$及$\boldsymbol{w} = \boldsymbol{y} + \alpha (\boldsymbol{x} - \boldsymbol{y} )$，于是$h‘(\alpha) = \nabla f(\boldsymbol{w} )^\top (\boldsymbol{x} - \boldsymbol{y} )$，从而有\begin{align*} h‘(\alpha) - h‘(0) = \nabla f(\boldsymbol{w} )^\top (\boldsymbol{x} - \boldsymbol{y} ) - \nabla f(\boldsymbol{y} )^\top (\boldsymbol{x} - \boldsymbol{y} ) \geq \frac{\lambda}{\alpha} \| \boldsymbol{w} - \boldsymbol{y} \|^2 = \lambda \alpha \| \boldsymbol{x} - \boldsymbol{y} \|^2\end{align*}故\begin{align*} f(\boldsymbol{x}) - f(\boldsymbol{y}) - \nabla f(\boldsymbol{y} )^\top (\boldsymbol{x} - \boldsymbol{y} ) = h(1) - h(0) - h‘(0) = \int_0^1 (h‘(\alpha) - h‘(0)) \mbox{d} \alpha \geq \frac{\lambda}{2} \| \boldsymbol{x} - \boldsymbol{y} \|^2 \end{align*}
由命题4知$f$是$\lambda$-强凸函数。
　　若$f$二阶可微，则$h‘‘(\alpha) = (\boldsymbol{x} - \boldsymbol{y} )^\top \nabla^2 f(\boldsymbol{w} ) (\boldsymbol{x} - \boldsymbol{y} ) \geq \frac{\lambda}{2} \| \boldsymbol{x} - \boldsymbol{y} \|^2$。由Taylor‘s公式知存在$\theta \in [0,1]$使得\begin{align*} h(1) = h(0) + h‘(0) + \frac{1}{2} h‘‘(\theta) \end{align*}于是\begin{align*} f(\boldsymbol{x} ) = h(1) = h(0) + h‘(0) + \frac{1}{2} h‘‘(\theta) \geq f(\boldsymbol{y} ) + \nabla f(\boldsymbol{y} )^\top (\boldsymbol{x} - \boldsymbol{y} ) + \frac{\lambda}{2} \| \boldsymbol{x} - \boldsymbol{y} \|^2 \end{align*}由命题4知$f$是$\lambda$-强凸函数。

　　定义6[平滑函数]：若函数$f(\cdot)$是集合$C$上的$\mu$-平滑函数，那么它可微且导数是$C$上的$\mu$-Lipschitz函数。

　　直观来说，一个函数若是平滑函数，它的导数变化不能太“剧烈”。

　　命题7：若函数$f$是$\mu$-平滑函数，则对于$\forall \boldsymbol{x}, \boldsymbol{y} \in C$和$\forall \alpha \in [0, 1]$，有\begin{align*} f(\boldsymbol{x}) \leq f(\boldsymbol{y}) + \nabla f(\boldsymbol{y} )^\top (\boldsymbol{x} - \boldsymbol{y} ) + \frac{\mu}{2} \| \boldsymbol{x} - \boldsymbol{y} \|^2 \end{align*}成立。

　　证明：记$h(\alpha) = f(\boldsymbol{y} + \alpha (\boldsymbol{x} - \boldsymbol{y} ))$及$\boldsymbol{w} = \boldsymbol{y} + \alpha (\boldsymbol{x} - \boldsymbol{y} )$，于是$h‘(\alpha) = \nabla f(\boldsymbol{w} )^\top (\boldsymbol{x} - \boldsymbol{y} )$，\begin{align*} f(\boldsymbol{x}) - f(\boldsymbol{y}) - \nabla f(\boldsymbol{y} )^\top (\boldsymbol{x} - \boldsymbol{y} ) & = h(1) - h(0) - h‘(0) \\ & = \int_0^1 (h‘(\alpha) - h‘(0)) \mbox{d} \alpha \\ & = \int_0^1 (\nabla f(\boldsymbol{w} ) - \nabla f(\boldsymbol{y} ))^\top (\boldsymbol{x} - \boldsymbol{y} ) \mbox{d} \alpha \\ & \leq \int_0^1 \|\nabla f(\boldsymbol{w} ) - \nabla f(\boldsymbol{y} )\| \|(\boldsymbol{x} - \boldsymbol{y} \| \mbox{d} \alpha \\ & \leq \int_0^1 \mu \|\boldsymbol{w} - \boldsymbol{y} \| \|\boldsymbol{x} - \boldsymbol{y} \| \mbox{d} \alpha \\ & = \int_0^1 \mu \alpha \| \boldsymbol{x} - \boldsymbol{y} \|^2 \mbox{d} \alpha \\ & = \frac{\mu}{2} \| \boldsymbol{x} - \boldsymbol{y} \|^2 \end{align*}

　　最后强凸和平滑可以通过如下命题联系起来：

　　命题8：函数$f$是$\lambda$-强凸函数当且仅当它的共轭函数是$\frac{1}{\lambda}$-平滑函数。

不过在详细证明前，我们需要如下的共轭次梯度定理及其推论作为我们的工具。

　　命题9[共轭次梯度定理]：设函数$f: \mathbb{R}^n \mapsto (-\infty, \infty]$是正常闭凸函数，对于向量对$(\boldsymbol{x} , \boldsymbol{y} )$，如下三个条件等价

$\boldsymbol{x} ^\top \boldsymbol{y} = f(\boldsymbol{x} ) + f^*(\boldsymbol{y} )$。
$\boldsymbol{y} \in \partial f(\boldsymbol{x} )$。
$\boldsymbol{x} \in \partial f^*(\boldsymbol{y} )$。

　　证明：先证条件(1)和条件(2)等价：向量对$(\boldsymbol{x} , \boldsymbol{y} )$满足条件(1)等价于\begin{align*} \boldsymbol{x} ^\top \boldsymbol{y} - f(\boldsymbol{x} ) = f^*(\boldsymbol{y} ) \geq \boldsymbol{y} ^\top \boldsymbol{z} - f(\boldsymbol{z} ), \forall \boldsymbol{z} \in \mathbb{R}^n\end{align*}进一步整理有$\forall \boldsymbol{z} \in \mathbb{R}^n$有$f(\boldsymbol{z} ) \geq f(\boldsymbol{x} ) + \boldsymbol{y} ^\top (\boldsymbol{z} - \boldsymbol{x} )$，也即$\boldsymbol{y} \in \partial f(\boldsymbol{x} )$。
　　再证条件(1)和条件(3)等价：由于$f$是正常闭凸函数，故由共轭定理知$f = f^{**}$，于是条件(a)可写成$\boldsymbol{y} ^\top \boldsymbol{x} = f^*(\boldsymbol{y} ) + f^{**}(\boldsymbol{x} )$，这等价于$\boldsymbol{x} \in \partial f^*(\boldsymbol{y} )$。

　　对于任意向量$\boldsymbol{z} $，由共轭次梯度定理知\begin{align*} \boldsymbol{z} \in \arg \max_{\boldsymbol{x} \in \mathbb{R}^n} \left\{ \boldsymbol{x} ^\top \boldsymbol{y} - f(\boldsymbol{x} ) \right\} \Leftrightarrow \boldsymbol{z} ^\top \boldsymbol{y} - f(\boldsymbol{z} ) = f^*(\boldsymbol{y} ) \Leftrightarrow \boldsymbol{z} ^\top \boldsymbol{y} = f(\boldsymbol{z} ) + f^*(\boldsymbol{y} ) \Leftrightarrow \boldsymbol{z} \in \partial f^*(\boldsymbol{y} ) \end{align*}若$f$是强凸函数，由命题3知$\boldsymbol{x} ^\top \boldsymbol{y} - f(\boldsymbol{x} )$的最大值点是唯一的，从而$\partial f^*(\boldsymbol{y} )$只含唯一元素，故$f^*$可微，即$\nabla f^*(\boldsymbol{y} ) = \arg \max_{\boldsymbol{x} \in \mathbb{R}^n} \left\{ \boldsymbol{x} ^\top \boldsymbol{y} - f(\boldsymbol{x} ) \right\}$。

　　最后我们给出命题8的证明：
　　一方面，若$f$是$\lambda$-强凸函数，$f^*$的可微性上面已证。对于$\forall \boldsymbol{x}_1, \boldsymbol{x}_2$和$\forall \alpha \in [0, 1]$，设$\boldsymbol{y} _1 \in \partial f(\boldsymbol{x} _1)$，$\boldsymbol{y} _2 \in \partial f(\boldsymbol{x} _2)$，$\boldsymbol{x} = \alpha \boldsymbol{x} _1 + ( 1 - \alpha ) \boldsymbol{x} _2$，于是由命题4知\begin{align} \label{equ: final proof 1} f(\boldsymbol{x}) & \geq f(\boldsymbol{x}_1) + \boldsymbol{y} _1^\top (\boldsymbol{x} - \boldsymbol{x} _1) + \frac{\lambda}{2} \| \boldsymbol{x} - \boldsymbol{x} _1 \|^2 = f(\boldsymbol{x}_1) + (1-\alpha) \boldsymbol{y} _1^\top (\boldsymbol{x} _2 - \boldsymbol{x} _1) + \frac{\lambda}{2} (1-\alpha)^2 \| \boldsymbol{x} _1 - \boldsymbol{x} _2 \|^2 \\ \label{equ: final proof 2} f(\boldsymbol{x}) & \geq f(\boldsymbol{x}_2) + \boldsymbol{y} _2^\top (\boldsymbol{x} - \boldsymbol{x} _2) + \frac{\lambda}{2} \| \boldsymbol{x} - \boldsymbol{x} _2 \|^2 = f(\boldsymbol{x}_2) + \alpha\boldsymbol{y} _2^\top (\boldsymbol{x} _1 - \boldsymbol{x} _2) + \frac{\lambda}{2} \alpha^2 \| \boldsymbol{x} _1 - \boldsymbol{x} _2 \|^2 \end{align}$(\ref{equ: final proof 1})\times \alpha + (\ref{equ: final proof 2}) \times (1-\alpha)$可得\begin{align*} f(\alpha \boldsymbol{x} _1 + ( 1 - \alpha ) \boldsymbol{x} _2) \geq \alpha f(\boldsymbol{x}_1) + (1-\alpha) f(\boldsymbol{x}_2) - \alpha (1-\alpha) (\boldsymbol{y} _2 - \boldsymbol{y} _1)^\top(\boldsymbol{x} _2 - \boldsymbol{x} _1) + \frac{\lambda}{2} \alpha (1-\alpha) \| \boldsymbol{x} _1 - \boldsymbol{x} _2 \|^2 \end{align*}又由命题2知\begin{align*} \alpha f(\boldsymbol{x}_1) + (1-\alpha) f(\boldsymbol{x}_2) \geq f(\alpha \boldsymbol{x} _1 + ( 1 - \alpha ) \boldsymbol{x} _2) + \frac{\lambda}{2} \alpha (1-\alpha) \| \boldsymbol{x} _1 - \boldsymbol{x} _2 \|^2 \end{align*}于是综合上面两式有\begin{align*} (\boldsymbol{y} _2 - \boldsymbol{y} _1)^\top(\boldsymbol{x} _2 - \boldsymbol{x} _1) \geq \lambda \| \boldsymbol{x} _2 - \boldsymbol{x} _1 \|^2 \end{align*}显然$(\boldsymbol{y} _2 - \boldsymbol{y} _1)^\top(\boldsymbol{x} _2 - \boldsymbol{x} _1) \leq \|\boldsymbol{y} _2 - \boldsymbol{y} _1\| \|\boldsymbol{x} _2 - \boldsymbol{x} _1\|$，于是\begin{align*} \| \boldsymbol{x} _2 - \boldsymbol{x} _1 \| \leq \frac{1}{\lambda} \|\boldsymbol{y} _2 - \boldsymbol{y} _1\| \end{align*}由共轭次梯度定理的推论知$\boldsymbol{y} _1 \in \partial f(\boldsymbol{x} _1) \Rightarrow \boldsymbol{x} _1 = \nabla f^*(\boldsymbol{y} _1)$，$\boldsymbol{y} _2 \in \partial f(\boldsymbol{x} _2) \Rightarrow \boldsymbol{x} _2 = \nabla f^*(\boldsymbol{y} _2)$，故\begin{align*} \| \nabla f^*(\boldsymbol{y} _2) - \nabla f^*(\boldsymbol{y} _1) \| \leq \frac{1}{\lambda} \|\boldsymbol{y} _2 - \boldsymbol{y} _1\| \end{align*}这就证明了$f^*$是$\frac{1}{\lambda}$-平滑函数。
　　另一方面，若$f^*$是$\frac{1}{\lambda}$-平滑函数，设$g(\boldsymbol{y} ) = f^*(\boldsymbol{x} + \boldsymbol{y}) - f^*(\boldsymbol{x}) - \nabla f^*(\boldsymbol{x} )^\top \boldsymbol{y} $，由命题7知$g(\boldsymbol{y} ) \leq \frac{1}{2\lambda} \| \boldsymbol{y} \|^2 = h(\boldsymbol{y} )$，于是\begin{align*} \frac{\lambda}{2} \| \boldsymbol{a} \|^2 = h^*(\boldsymbol{a}) = \sup_{\boldsymbol{y} } \{ \boldsymbol{y} ^\top \boldsymbol{a} - h(\boldsymbol{y} ) \} \leq \sup_{\boldsymbol{y} } \{ \boldsymbol{y} ^\top \boldsymbol{a} - g(\boldsymbol{y} ) \} = g^*(\boldsymbol{a})\end{align*}又\begin{align*} g^*(\boldsymbol{a}) & = \sup_{\boldsymbol{y} } \{ \boldsymbol{y} ^\top \boldsymbol{a} - g(\boldsymbol{y} ) \} \\ & = \sup_{\boldsymbol{y} } \{ \boldsymbol{y} ^\top \boldsymbol{a} - f^*(\boldsymbol{x} + \boldsymbol{y}) + f^*(\boldsymbol{x}) + \nabla f^*(\boldsymbol{x} )^\top \boldsymbol{y} \} \\ & = \sup_{\boldsymbol{y} } \{ \boldsymbol{y} ^\top (\boldsymbol{a} + \nabla f^*(\boldsymbol{x} )) - f^*(\boldsymbol{x} + \boldsymbol{y}) \} + f^*(\boldsymbol{x}) \\ & = \sup_{\boldsymbol{y} } \{ (\boldsymbol{x} + \boldsymbol{y} )^\top (\boldsymbol{a} + \nabla f^*(\boldsymbol{x} )) - f^*(\boldsymbol{x} + \boldsymbol{y}) \} + f^*(\boldsymbol{x}) - \boldsymbol{x} ^\top (\boldsymbol{a} + \nabla f^*(\boldsymbol{x} )) \\ & = f^{**}(\boldsymbol{a} + \nabla f^*(\boldsymbol{x} )) + f^*(\boldsymbol{x}) - \boldsymbol{x} ^\top (\boldsymbol{a} + \nabla f^*(\boldsymbol{x} )) \\ & = f(\boldsymbol{a} + \nabla f^*(\boldsymbol{x} )) + f^*(\boldsymbol{x}) - \boldsymbol{x} ^\top (\boldsymbol{a} + \nabla f^*(\boldsymbol{x} )) \end{align*}记$\boldsymbol{u} = \nabla f^*(\boldsymbol{x} )$，由共轭次梯度定理有$\boldsymbol{x} ^\top \boldsymbol{u} = f^*(\boldsymbol{x} ) + f(\boldsymbol{u} )$，于是\begin{align*} g^*(\boldsymbol{a}) = f(\boldsymbol{a} + \boldsymbol{u} ) + f^*(\boldsymbol{x}) - \boldsymbol{x} ^\top \boldsymbol{a} - \boldsymbol{x} ^\top \boldsymbol{u} = f(\boldsymbol{a} + \boldsymbol{u} ) - f(\boldsymbol{u} ) - \boldsymbol{x} ^\top \boldsymbol{a} \end{align*}结合$g^*(\boldsymbol{a}) \geq \frac{\lambda}{2} \| \boldsymbol{a} \|^2$知对任意$\boldsymbol{a}$和$\boldsymbol{x} $有\begin{align*} f(\boldsymbol{a} + \boldsymbol{u} ) - f(\boldsymbol{u} ) - \boldsymbol{x} ^\top \boldsymbol{a} \geq \frac{\lambda}{2} \| \boldsymbol{a} \|^2 \end{align*}其中$\boldsymbol{u} = \nabla f^*(\boldsymbol{x} )$。由共轭次梯度定理知$\boldsymbol{u} ‘ = \nabla f^*(\boldsymbol{x} ) \Leftrightarrow \boldsymbol{x} \in \partial f(\boldsymbol{u} ‘)$，由命题4知$f$是$\lambda$-强凸函数。

强凸、平滑与共轭

标签：

原文地址：http://www.cnblogs.com/murongxixi/p/4482143.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行