标签:一个 play 在线 映射 关于 基础上 row mat 基础
逻辑斯蒂回归的模型假设是在线性回归的基础上加了一个激活层:
\[
h (x) = \frac{1}{1 + e^{-\theta ^T x}}
\]
如此我们就可以将线性回归值映射到 \((0, 1)\) 上。关于这个模型输出值,我们可以这么理解 \(P(y^{(i)} = 1| x^{(i)} ) = h (x^{(i)})\)。为什么不是 \(P(y^{(i)} = 0 | x^{(i)})\)?其实完全可以,这取决于我们在训练过程中损失函数的设计。若当 $ y^{(i)} = 0, ?h (x^{(i)}) \rightarrow 1$ 时损失函数增大,则我们是认为 \(P(y^{(i)} = 1| x^{(i)} ) = h (x^{(i)})\)的;反之若减小,则我们认为 \(P(y^{(i)} = 0| x^{(i)} ) = h (x^{(i)})\)。
我们希望当 \(h (x^{(i)}) \rightarrow 1, \ y = 0\) 时损失函数尽可能大,反之尽可能小。当 \(y^{(i)} = 1\) 时为 $ -log(h (x^{(i)}))$;当 \(y^{(i)} = 0\) 时为 $ -log(1-h (x^{(i)}))$ 。将这两种情况合并起来,单样本损失函数如下:
\[
\delta (h (x^{(i)}), y^{(i)}) = -y \cdot log(h (x^{(i)})) - (1 - y) \cdot log(1-h (x^{(i)}))
\]
模型假设的损失函数如下:
\[
J(\theta) = \frac{1}{n} \sum_{i=1}^{n} -y \cdot log(h (x^{(i)})) - (1 - y) \cdot log(1-h (x^{(i)}))
\]
\(\frac{\partial \delta }{\partial \theta}= -\frac{y^{(i)} }{h} \cdot h \cdot (1 - h) \cdot x^{(i)}+ \frac{1-y^{(i)}}{1-h} \cdot h \cdot (1-h) \cdot x^{(i)} =x^{(i)} \cdot (h - y^{(i)})\)
\(\frac{\partial J}{\partial \theta} = \frac{1}{n} \sum_{i=1}^n x^{(i)} \cdot (h - y^{(i)})\)
我们可以发现,其导数为 feature · error 的形式。
标签:一个 play 在线 映射 关于 基础上 row mat 基础
原文地址:https://www.cnblogs.com/luyunan/p/12253999.html