标签:
本文主要包含如下3部分内容:
定义1[强凸函数]:若函数$f(\cdot)$是集合$C$上的$\lambda$-强凸函数,那么$f(\cdot) - \frac{\lambda}{2} \|\cdot\|^2$是$C$上的凸函数。
直观来说,一个函数若是强凸函数,它至少要跟二次函数一样“陡峭”,它还有如下一些等价的描述:
命题2:函数$f$是集合$C$上的$\lambda$-强凸函数当且仅当对于$\forall \boldsymbol{x}, \boldsymbol{y} \in C$和$\forall \alpha \in [0, 1]$,有\begin{align*}\alpha f(\boldsymbol{x}) + (1 - \alpha) f(\boldsymbol{y}) \geq f(\alpha \boldsymbol{x} + (1 - \alpha) \boldsymbol{y}) + \frac{\lambda \alpha (1 - \alpha)}{2} \| \boldsymbol{x} - \boldsymbol{y} \|^2 \end{align*}成立。
证明:由于$f(\cdot) - \frac{\lambda}{2} \|\cdot\|^2$是凸函数,于是\begin{align*} \alpha \left( f(\boldsymbol{x}) - \frac{\lambda}{2} \|\boldsymbol{x} \|^2 \right) + (1 - \alpha) \left( f(\boldsymbol{y} ) - \frac{\lambda}{2} \|\boldsymbol{y} \|^2 \right) \geq f(\alpha \boldsymbol{x} + (1 - \alpha) \boldsymbol{y}) - \frac{\lambda}{2} \| \alpha \boldsymbol{x} + (1 - \alpha) \boldsymbol{y} \|^2 \end{align*}移项整理得\begin{align*} \alpha f(\boldsymbol{x}) + (1 - \alpha) f(\boldsymbol{y}) & \geq f(\alpha \boldsymbol{x} + (1 - \alpha) \boldsymbol{y}) + \frac{\lambda}{2} \alpha \|\boldsymbol{x} \|^2 + \frac{\lambda}{2} (1 - \alpha) \|\boldsymbol{y} \|^2 - \frac{\lambda}{2} \| \alpha \boldsymbol{x} + (1 - \alpha) \boldsymbol{y} \|^2 \\ & = f(\alpha \boldsymbol{x} + (1 - \alpha) \boldsymbol{y}) + \frac{\lambda}{2} ( \alpha (1 - \alpha) \|\boldsymbol{x} \|^2 + \alpha (1 - \alpha) \|\boldsymbol{y} \|^2 - 2 \alpha (1 - \alpha) \boldsymbol{x} ^\top \boldsymbol{y} ) \\ & = f(\alpha \boldsymbol{x} + (1 - \alpha) \boldsymbol{y}) + \frac{\lambda \alpha (1 - \alpha)}{2} \| \boldsymbol{x} - \boldsymbol{y} \|^2 \end{align*}
命题3[唯一性]:若函数$f$是$\lambda$-强凸函数,那么它的最小值点是唯一的。
证明:不妨假设$\boldsymbol{x} $和$\boldsymbol{y} $都是$f$的最小值点,即$f(\boldsymbol{x} ) = f(\boldsymbol{y} )$,令命题2中的$\alpha=\frac{1}{2}$有\begin{align*} f(\boldsymbol{x}) \geq f\left(\frac{\boldsymbol{x} + \boldsymbol{y}}{2}\right) + \frac{\lambda}{8} \| \boldsymbol{x} - \boldsymbol{y} \|^2 \geq f\left(\frac{\boldsymbol{x} + \boldsymbol{y}}{2}\right) \geq f(\boldsymbol{x}) \end{align*}上式所有不等号只能全部取等号,故$\boldsymbol{x} =\boldsymbol{y} $,也即最小值点是唯一的。
命题4[一阶性质]:函数$f$是集合$C$上的$\lambda$-强凸函数当且仅当对于$\forall \boldsymbol{x}, \boldsymbol{y} \in C$有\begin{align} \label{equ: first order} \forall \boldsymbol{g} \in \partial f(\boldsymbol{x} ), \ f(\boldsymbol{y}) \geq f(\boldsymbol{x}) + \boldsymbol{g} ^\top (\boldsymbol{y} - \boldsymbol{x} ) + \frac{\lambda}{2} \| \boldsymbol{y} - \boldsymbol{x} \|^2 \end{align}
证明:一方面由$f$是$\lambda$-强凸函数知对$\forall \boldsymbol{g} \in \partial f(\boldsymbol{x} )$有\begin{align*} f(\boldsymbol{y}) - \frac{\lambda}{2} \|\boldsymbol{y} \|^2 \geq f(\boldsymbol{x}) - \frac{\lambda}{2} \|\boldsymbol{x} \|^2 + (\boldsymbol{g} - \lambda \boldsymbol{x} )^\top (\boldsymbol{y} - \boldsymbol{x}) \end{align*}移项整理得\begin{align*} f(\boldsymbol{y}) & \geq f(\boldsymbol{x}) + \boldsymbol{g} ^\top (\boldsymbol{y} - \boldsymbol{x} ) + \frac{\lambda}{2} \|\boldsymbol{y} \|^2 - \frac{\lambda}{2} \|\boldsymbol{x} \|^2 - \lambda \boldsymbol{x} ^\top (\boldsymbol{y} - \boldsymbol{x} ) \\ & = f(\boldsymbol{x}) + \boldsymbol{g} ^\top (\boldsymbol{y} - \boldsymbol{x} ) + \frac{\lambda}{2} \|\boldsymbol{y} \|^2 - \lambda \boldsymbol{x} ^\top \boldsymbol{y} + \frac{\lambda}{2} \|\boldsymbol{x} \|^2 \\ & = f(\boldsymbol{x}) + \boldsymbol{g} ^\top (\boldsymbol{y} - \boldsymbol{x} ) + \frac{\lambda}{2} \| \boldsymbol{y} - \boldsymbol{x} \|^2 \end{align*}另一方面,记$\boldsymbol{z} = \alpha \boldsymbol{x} + (1-\alpha)\boldsymbol{y} $,由式(\ref{equ: first order}) 知对$\forall \boldsymbol{g} \in \partial f(\boldsymbol{z} )$有\begin{align} \label{equ: first order proof 1} f(\boldsymbol{x}) & \geq f(\boldsymbol{z}) + \boldsymbol{g} ^\top (\boldsymbol{x} - \boldsymbol{z} ) + \frac{\lambda}{2} \| \boldsymbol{x} - \boldsymbol{z} \|^2 = f(\boldsymbol{z}) + \boldsymbol{g} ^\top (\boldsymbol{x} - \boldsymbol{z} ) + \frac{\lambda}{2} (1 - \alpha)^2 \| \boldsymbol{x} - \boldsymbol{y} \|^2 \\ \label{equ: first order proof 2} f(\boldsymbol{y}) & \geq f(\boldsymbol{z}) + \boldsymbol{g} ^\top (\boldsymbol{y} - \boldsymbol{z} ) + \frac{\lambda}{2} \| \boldsymbol{y} - \boldsymbol{z} \|^2 = f(\boldsymbol{z}) + \boldsymbol{g} ^\top (\boldsymbol{y} - \boldsymbol{z} ) + \frac{\lambda}{2} \alpha^2 \| \boldsymbol{y} - \boldsymbol{x} \|^2 \end{align}$(\ref{equ: first order proof 1})\times \alpha + (\ref{equ: first order proof 2}) \times (1-\alpha)$可得\begin{align*} \alpha f(\boldsymbol{x}) + (1-\alpha) f(\boldsymbol{y}) & \geq f(\boldsymbol{z}) + \frac{\lambda}{2} (1 - \alpha)^2 \alpha \| \boldsymbol{x} - \boldsymbol{y} \|^2 + \frac{\lambda}{2} \alpha^2 (1 - \alpha) \| \boldsymbol{y} - \boldsymbol{x} \|^2 \\ & = f(\alpha \boldsymbol{x} + (1-\alpha)\boldsymbol{y} ) + \frac{\lambda}{2} \alpha (1 - \alpha) \| \boldsymbol{x} - \boldsymbol{y} \|^2 \end{align*}由命题2知$f$是$\lambda$-强凸函数。
命题5:若函数$f$是集合$C$上的可微函数,那么$f$是$\lambda$-强凸函数当且仅当对于$\forall \boldsymbol{x}, \boldsymbol{y} \in C$有\begin{align*} (\nabla f(\boldsymbol{y} ) - \nabla f(\boldsymbol{x} ))^\top (\boldsymbol{y} - \boldsymbol{x} ) \geq \lambda \| \boldsymbol{y} - \boldsymbol{x} \|^2 \end{align*}此外,若$f$二阶可微,$f$是$\lambda$-强凸函数的一个充分条件是\begin{align*} \boldsymbol{x} ^\top \nabla^2 f(\boldsymbol{y} ) \boldsymbol{x} \geq \frac{\lambda}{2} \|\boldsymbol{x} \|^2, \ \forall \boldsymbol{y} , \boldsymbol{x} \end{align*}
证明:一方面,由命题4知\begin{align*} f(\boldsymbol{y}) \geq f(\boldsymbol{x}) + \nabla f(\boldsymbol{x} )^\top (\boldsymbol{y} - \boldsymbol{x} ) + \frac{\lambda}{2} \| \boldsymbol{y} - \boldsymbol{x} \|^2 \\ f(\boldsymbol{x}) \geq f(\boldsymbol{y}) + \nabla f(\boldsymbol{y} )^\top (\boldsymbol{x} - \boldsymbol{y} ) + \frac{\lambda}{2} \| \boldsymbol{x} - \boldsymbol{y} \|^2 \end{align*}移项相加得\begin{align*} (\nabla f(\boldsymbol{y} ) - \nabla f(\boldsymbol{x} ))^\top (\boldsymbol{y} - \boldsymbol{x} ) \geq \lambda \| \boldsymbol{y} - \boldsymbol{x} \|^2 \end{align*}
另一方面,记$h(\alpha) = f(\boldsymbol{y} + \alpha (\boldsymbol{x} - \boldsymbol{y} ))$及$\boldsymbol{w} = \boldsymbol{y} + \alpha (\boldsymbol{x} - \boldsymbol{y} )$,于是$h‘(\alpha) = \nabla f(\boldsymbol{w} )^\top (\boldsymbol{x} - \boldsymbol{y} )$,从而有\begin{align*} h‘(\alpha) - h‘(0) = \nabla f(\boldsymbol{w} )^\top (\boldsymbol{x} - \boldsymbol{y} ) - \nabla f(\boldsymbol{y} )^\top (\boldsymbol{x} - \boldsymbol{y} ) \geq \frac{\lambda}{\alpha} \| \boldsymbol{w} - \boldsymbol{y} \|^2 = \lambda \alpha \| \boldsymbol{x} - \boldsymbol{y} \|^2\end{align*}故\begin{align*} f(\boldsymbol{x}) - f(\boldsymbol{y}) - \nabla f(\boldsymbol{y} )^\top (\boldsymbol{x} - \boldsymbol{y} ) = h(1) - h(0) - h‘(0) = \int_0^1 (h‘(\alpha) - h‘(0)) \mbox{d} \alpha \geq \frac{\lambda}{2} \| \boldsymbol{x} - \boldsymbol{y} \|^2 \end{align*}
由命题4知$f$是$\lambda$-强凸函数。
若$f$二阶可微,则$h‘‘(\alpha) = (\boldsymbol{x} - \boldsymbol{y} )^\top \nabla^2 f(\boldsymbol{w} ) (\boldsymbol{x} - \boldsymbol{y} ) \geq \frac{\lambda}{2} \| \boldsymbol{x} - \boldsymbol{y} \|^2$。 由Taylor‘s公式知存在$\theta \in [0,1]$使得\begin{align*} h(1) = h(0) + h‘(0) + \frac{1}{2} h‘‘(\theta) \end{align*}于是\begin{align*} f(\boldsymbol{x} ) = h(1) = h(0) + h‘(0) + \frac{1}{2} h‘‘(\theta) \geq f(\boldsymbol{y} ) + \nabla f(\boldsymbol{y} )^\top (\boldsymbol{x} - \boldsymbol{y} ) + \frac{\lambda}{2} \| \boldsymbol{x} - \boldsymbol{y} \|^2 \end{align*}由命题4知$f$是$\lambda$-强凸函数。
定义6[平滑函数]:若函数$f(\cdot)$是集合$C$上的$\mu$-平滑函数,那么它可微且导数是$C$上的$\mu$-Lipschitz函数。
直观来说,一个函数若是平滑函数,它的导数变化不能太“剧烈”。
命题7:若函数$f$是$\mu$-平滑函数,则对于$\forall \boldsymbol{x}, \boldsymbol{y} \in C$和$\forall \alpha \in [0, 1]$,有\begin{align*} f(\boldsymbol{x}) \leq f(\boldsymbol{y}) + \nabla f(\boldsymbol{y} )^\top (\boldsymbol{x} - \boldsymbol{y} ) + \frac{\mu}{2} \| \boldsymbol{x} - \boldsymbol{y} \|^2 \end{align*}成立。
证明:记$h(\alpha) = f(\boldsymbol{y} + \alpha (\boldsymbol{x} - \boldsymbol{y} ))$及$\boldsymbol{w} = \boldsymbol{y} + \alpha (\boldsymbol{x} - \boldsymbol{y} )$,于是$h‘(\alpha) = \nabla f(\boldsymbol{w} )^\top (\boldsymbol{x} - \boldsymbol{y} )$,\begin{align*} f(\boldsymbol{x}) - f(\boldsymbol{y}) - \nabla f(\boldsymbol{y} )^\top (\boldsymbol{x} - \boldsymbol{y} ) & = h(1) - h(0) - h‘(0) \\ & = \int_0^1 (h‘(\alpha) - h‘(0)) \mbox{d} \alpha \\ & = \int_0^1 (\nabla f(\boldsymbol{w} ) - \nabla f(\boldsymbol{y} ))^\top (\boldsymbol{x} - \boldsymbol{y} ) \mbox{d} \alpha \\ & \leq \int_0^1 \|\nabla f(\boldsymbol{w} ) - \nabla f(\boldsymbol{y} )\| \|(\boldsymbol{x} - \boldsymbol{y} \| \mbox{d} \alpha \\ & \leq \int_0^1 \mu \|\boldsymbol{w} - \boldsymbol{y} \| \|\boldsymbol{x} - \boldsymbol{y} \| \mbox{d} \alpha \\ & = \int_0^1 \mu \alpha \| \boldsymbol{x} - \boldsymbol{y} \|^2 \mbox{d} \alpha \\ & = \frac{\mu}{2} \| \boldsymbol{x} - \boldsymbol{y} \|^2 \end{align*}
最后强凸和平滑可以通过如下命题联系起来:
命题8:函数$f$是$\lambda$-强凸函数当且仅当它的共轭函数是$\frac{1}{\lambda}$-平滑函数。
不过在详细证明前,我们需要如下的共轭次梯度定理及其推论作为我们的工具。
命题9[共轭次梯度定理]:设函数$f: \mathbb{R}^n \mapsto (-\infty, \infty]$是正常闭凸函数,对于向量对$(\boldsymbol{x} , \boldsymbol{y} )$,如下三个条件等价
证明:先证条件(1)和条件(2)等价:向量对$(\boldsymbol{x} , \boldsymbol{y} )$满足条件(1)等价于\begin{align*} \boldsymbol{x} ^\top \boldsymbol{y} - f(\boldsymbol{x} ) = f^*(\boldsymbol{y} ) \geq \boldsymbol{y} ^\top \boldsymbol{z} - f(\boldsymbol{z} ), \forall \boldsymbol{z} \in \mathbb{R}^n\end{align*}进一步整理有$\forall \boldsymbol{z} \in \mathbb{R}^n$有$f(\boldsymbol{z} ) \geq f(\boldsymbol{x} ) + \boldsymbol{y} ^\top (\boldsymbol{z} - \boldsymbol{x} )$,也即$\boldsymbol{y} \in \partial f(\boldsymbol{x} )$。
再证条件(1)和条件(3)等价:由于$f$是正常闭凸函数,故由共轭定理知$f = f^{**}$,于是条件(a)可写成$\boldsymbol{y} ^\top \boldsymbol{x} = f^*(\boldsymbol{y} ) + f^{**}(\boldsymbol{x} )$,这等价于$\boldsymbol{x} \in \partial f^*(\boldsymbol{y} )$。
对于任意向量$\boldsymbol{z} $,由共轭次梯度定理知\begin{align*} \boldsymbol{z} \in \arg \max_{\boldsymbol{x} \in \mathbb{R}^n} \left\{ \boldsymbol{x} ^\top \boldsymbol{y} - f(\boldsymbol{x} ) \right\} \Leftrightarrow \boldsymbol{z} ^\top \boldsymbol{y} - f(\boldsymbol{z} ) = f^*(\boldsymbol{y} ) \Leftrightarrow \boldsymbol{z} ^\top \boldsymbol{y} = f(\boldsymbol{z} ) + f^*(\boldsymbol{y} ) \Leftrightarrow \boldsymbol{z} \in \partial f^*(\boldsymbol{y} ) \end{align*}若$f$是强凸函数,由命题3知$\boldsymbol{x} ^\top \boldsymbol{y} - f(\boldsymbol{x} )$的最大值点是唯一的,从而$\partial f^*(\boldsymbol{y} )$只含唯一元素,故$f^*$可微,即$\nabla f^*(\boldsymbol{y} ) = \arg \max_{\boldsymbol{x} \in \mathbb{R}^n} \left\{ \boldsymbol{x} ^\top \boldsymbol{y} - f(\boldsymbol{x} ) \right\}$。
最后我们给出命题8的证明:
一方面,若$f$是$\lambda$-强凸函数,$f^*$的可微性上面已证。对于$\forall \boldsymbol{x}_1, \boldsymbol{x}_2$和$\forall \alpha \in [0, 1]$,设$\boldsymbol{y} _1 \in \partial f(\boldsymbol{x} _1)$,$\boldsymbol{y} _2 \in \partial f(\boldsymbol{x} _2)$,$\boldsymbol{x} = \alpha \boldsymbol{x} _1 + ( 1 - \alpha ) \boldsymbol{x} _2$,于是由命题4知\begin{align} \label{equ: final proof 1} f(\boldsymbol{x}) & \geq f(\boldsymbol{x}_1) + \boldsymbol{y} _1^\top (\boldsymbol{x} - \boldsymbol{x} _1) + \frac{\lambda}{2} \| \boldsymbol{x} - \boldsymbol{x} _1 \|^2 = f(\boldsymbol{x}_1) + (1-\alpha) \boldsymbol{y} _1^\top (\boldsymbol{x} _2 - \boldsymbol{x} _1) + \frac{\lambda}{2} (1-\alpha)^2 \| \boldsymbol{x} _1 - \boldsymbol{x} _2 \|^2 \\ \label{equ: final proof 2} f(\boldsymbol{x}) & \geq f(\boldsymbol{x}_2) + \boldsymbol{y} _2^\top (\boldsymbol{x} - \boldsymbol{x} _2) + \frac{\lambda}{2} \| \boldsymbol{x} - \boldsymbol{x} _2 \|^2 = f(\boldsymbol{x}_2) + \alpha\boldsymbol{y} _2^\top (\boldsymbol{x} _1 - \boldsymbol{x} _2) + \frac{\lambda}{2} \alpha^2 \| \boldsymbol{x} _1 - \boldsymbol{x} _2 \|^2 \end{align}$(\ref{equ: final proof 1})\times \alpha + (\ref{equ: final proof 2}) \times (1-\alpha)$可得\begin{align*} f(\alpha \boldsymbol{x} _1 + ( 1 - \alpha ) \boldsymbol{x} _2) \geq \alpha f(\boldsymbol{x}_1) + (1-\alpha) f(\boldsymbol{x}_2) - \alpha (1-\alpha) (\boldsymbol{y} _2 - \boldsymbol{y} _1)^\top(\boldsymbol{x} _2 - \boldsymbol{x} _1) + \frac{\lambda}{2} \alpha (1-\alpha) \| \boldsymbol{x} _1 - \boldsymbol{x} _2 \|^2 \end{align*}又由命题2知\begin{align*} \alpha f(\boldsymbol{x}_1) + (1-\alpha) f(\boldsymbol{x}_2) \geq f(\alpha \boldsymbol{x} _1 + ( 1 - \alpha ) \boldsymbol{x} _2) + \frac{\lambda}{2} \alpha (1-\alpha) \| \boldsymbol{x} _1 - \boldsymbol{x} _2 \|^2 \end{align*}于是综合上面两式有\begin{align*} (\boldsymbol{y} _2 - \boldsymbol{y} _1)^\top(\boldsymbol{x} _2 - \boldsymbol{x} _1) \geq \lambda \| \boldsymbol{x} _2 - \boldsymbol{x} _1 \|^2 \end{align*}显然$(\boldsymbol{y} _2 - \boldsymbol{y} _1)^\top(\boldsymbol{x} _2 - \boldsymbol{x} _1) \leq \|\boldsymbol{y} _2 - \boldsymbol{y} _1\| \|\boldsymbol{x} _2 - \boldsymbol{x} _1\|$,于是\begin{align*} \| \boldsymbol{x} _2 - \boldsymbol{x} _1 \| \leq \frac{1}{\lambda} \|\boldsymbol{y} _2 - \boldsymbol{y} _1\| \end{align*}由共轭次梯度定理的推论知$\boldsymbol{y} _1 \in \partial f(\boldsymbol{x} _1) \Rightarrow \boldsymbol{x} _1 = \nabla f^*(\boldsymbol{y} _1)$,$\boldsymbol{y} _2 \in \partial f(\boldsymbol{x} _2) \Rightarrow \boldsymbol{x} _2 = \nabla f^*(\boldsymbol{y} _2)$,故\begin{align*} \| \nabla f^*(\boldsymbol{y} _2) - \nabla f^*(\boldsymbol{y} _1) \| \leq \frac{1}{\lambda} \|\boldsymbol{y} _2 - \boldsymbol{y} _1\| \end{align*}这就证明了$f^*$是$\frac{1}{\lambda}$-平滑函数。
另一方面,若$f^*$是$\frac{1}{\lambda}$-平滑函数,设$g(\boldsymbol{y} ) = f^*(\boldsymbol{x} + \boldsymbol{y}) - f^*(\boldsymbol{x}) - \nabla f^*(\boldsymbol{x} )^\top \boldsymbol{y} $,由命题7知$g(\boldsymbol{y} ) \leq \frac{1}{2\lambda} \| \boldsymbol{y} \|^2 = h(\boldsymbol{y} )$,于是\begin{align*} \frac{\lambda}{2} \| \boldsymbol{a} \|^2 = h^*(\boldsymbol{a}) = \sup_{\boldsymbol{y} } \{ \boldsymbol{y} ^\top \boldsymbol{a} - h(\boldsymbol{y} ) \} \leq \sup_{\boldsymbol{y} } \{ \boldsymbol{y} ^\top \boldsymbol{a} - g(\boldsymbol{y} ) \} = g^*(\boldsymbol{a})\end{align*}又\begin{align*} g^*(\boldsymbol{a}) & = \sup_{\boldsymbol{y} } \{ \boldsymbol{y} ^\top \boldsymbol{a} - g(\boldsymbol{y} ) \} \\ & = \sup_{\boldsymbol{y} } \{ \boldsymbol{y} ^\top \boldsymbol{a} - f^*(\boldsymbol{x} + \boldsymbol{y}) + f^*(\boldsymbol{x}) + \nabla f^*(\boldsymbol{x} )^\top \boldsymbol{y} \} \\ & = \sup_{\boldsymbol{y} } \{ \boldsymbol{y} ^\top (\boldsymbol{a} + \nabla f^*(\boldsymbol{x} )) - f^*(\boldsymbol{x} + \boldsymbol{y}) \} + f^*(\boldsymbol{x}) \\ & = \sup_{\boldsymbol{y} } \{ (\boldsymbol{x} + \boldsymbol{y} )^\top (\boldsymbol{a} + \nabla f^*(\boldsymbol{x} )) - f^*(\boldsymbol{x} + \boldsymbol{y}) \} + f^*(\boldsymbol{x}) - \boldsymbol{x} ^\top (\boldsymbol{a} + \nabla f^*(\boldsymbol{x} )) \\ & = f^{**}(\boldsymbol{a} + \nabla f^*(\boldsymbol{x} )) + f^*(\boldsymbol{x}) - \boldsymbol{x} ^\top (\boldsymbol{a} + \nabla f^*(\boldsymbol{x} )) \\ & = f(\boldsymbol{a} + \nabla f^*(\boldsymbol{x} )) + f^*(\boldsymbol{x}) - \boldsymbol{x} ^\top (\boldsymbol{a} + \nabla f^*(\boldsymbol{x} )) \end{align*}记$\boldsymbol{u} = \nabla f^*(\boldsymbol{x} )$,由共轭次梯度定理有$\boldsymbol{x} ^\top \boldsymbol{u} = f^*(\boldsymbol{x} ) + f(\boldsymbol{u} )$,于是\begin{align*} g^*(\boldsymbol{a}) = f(\boldsymbol{a} + \boldsymbol{u} ) + f^*(\boldsymbol{x}) - \boldsymbol{x} ^\top \boldsymbol{a} - \boldsymbol{x} ^\top \boldsymbol{u} = f(\boldsymbol{a} + \boldsymbol{u} ) - f(\boldsymbol{u} ) - \boldsymbol{x} ^\top \boldsymbol{a} \end{align*}结合$g^*(\boldsymbol{a}) \geq \frac{\lambda}{2} \| \boldsymbol{a} \|^2$知对任意$\boldsymbol{a}$和$\boldsymbol{x} $有\begin{align*} f(\boldsymbol{a} + \boldsymbol{u} ) - f(\boldsymbol{u} ) - \boldsymbol{x} ^\top \boldsymbol{a} \geq \frac{\lambda}{2} \| \boldsymbol{a} \|^2 \end{align*}其中$\boldsymbol{u} = \nabla f^*(\boldsymbol{x} )$。由共轭次梯度定理知$\boldsymbol{u} ‘ = \nabla f^*(\boldsymbol{x} ) \Leftrightarrow \boldsymbol{x} \in \partial f(\boldsymbol{u} ‘)$,由命题4知$f$是$\lambda$-强凸函数。
标签:
原文地址:http://www.cnblogs.com/murongxixi/p/4482143.html