标签:矩阵 inline splay 多个 定义 class 描述 习题 mat
题目描述
试证明,对于参数 \(\omega\),对率回归的目标函数(3.18)是非凸的,但其对数似然函数(3.27)是凸的。
证明方法
凸函数的二阶条件,如果\(f(x)\)是凸函数的充要条件
\[\nabla ^2 f(x) \succeq 0
\]
对定义域内所有\(x\)成立,且\(f(x)\) 定义域为凸集。参见 Boyd 的Convex Optimization 的3.1.4节。
这里还用到对向量的求导。
证明
(3.18)式如下:
\[y = \frac{1}{1+ e^{-w^Tx + b}}
\]
证明:
\[suppose: g = g(w) = e^{-w^Tx + b} \g‘ = -gx \\
f(w) = \frac{1}{1+ g} \nabla f(w) = \frac{g}{(1+ g)^2} x\\nabla^2f(w) = \frac {g‘(1+g)^2 - g*2*(1+g)g‘ } {(1+g)^4} x\= \frac{g‘(1-g^2)}{(1+g)^4}x \= -\frac{g(1-g^2)}{(1+g)^4}x x^T \\]
注意这里的变量是 \(w\) 而不是\(x\),如果取 \(x\)为一维且大于\(0\),取合适的\(w\)使得\(g(w)<1\),则可得 \(\nabla ^2 f(x) \succeq 0\) 不成立。所以(3.18)式不是关于\(w\)的凸函数。
(3.27)如下
\[l(\beta) = \sum_{i=1}^m (-y_i\beta ^T x_i + ln(1+e^{\beta^T x_i}))
\]
证明:
\[suppose: g_i = g_i(\beta) = e^{\beta^T x_i} \g_i > 0 \g_i‘ = g_i x_i \\nabla l(\beta) = \sum_{i=1}^m (-y_i x_i + \frac{g_i‘}{1+g_i}) = \sum_{i=1}^m (-y_i x_i + \frac{g_i}{1+g_i}x_i) \\nabla^2 l(\beta) = \sum_{i=1}^m \frac{g_i‘(1+g_i) - g_i g_i‘}{(1+g_i)^2}x_i = \sum_{i=1}^m \frac{g_i}{(1+g_i)^2}x_i x_i^T\\]
其中 \(x_i x_i^T\) 之前的系数为正实数, \(x_i\)是一个样本,即是 \(n\) 维列向量,如果证明矩阵 \(x_i x_i^T\) 是半正定的,则 \(\nabla^2 l(\beta)\) 就是多个半正定矩阵的非负加权和,则也是半正定矩阵,即满足 \(\nabla^2 l(\beta) \succeq 0\) 。
一个矩阵 \(A\in R^{n\times n}\) 是半正定的,则对任意的 \(y\) , 有 \(y^TAy \ge 0\) 。
任取 \(y \in R^n\) ,则
\[y^T(x_i x_i^T)y = (y^T x_i)(x_i^Ty) = (x_i^Ty)^T (x_i^Ty) \ge 0
\]
所以矩阵 \(x_i x_i^T\) 是半正定的。证毕!
西瓜书习题3.2
标签:矩阵 inline splay 多个 定义 class 描述 习题 mat
原文地址:https://www.cnblogs.com/forcekeng/p/12813567.html