机器学习: 神经网络中的Error函数

时间：2016-06-21 07:35:05 阅读：208 评论：0 收藏：0 [点我收藏+]

标签：

利用神经网络做分类的时候，可以将神经网络看成一个mapping function，从输入到输出经过复杂的非线性变换。而输出的预测值与实际的目标值总是存在一定偏差的，一般利用这种偏差建立error 函数，再利用back propagation 来训练神经网络。

我们可以探讨一下，error 函数与概率分布或者概率密度函数的关系。

二分类

先来看二分类情况( $t \in \{0, 1\}$ )，我们假设网络最终的输出会经过一个sigmoid 函数:

y = σ (a) = 1 1 + e x p ( ? a )

$y=\sigma(a)=\frac{1}{1+exp(-a)}$

$0 \leq y(\mathbf{x}, \mathbf{w}) \leq 1$ , $y(\mathbf{x}, \mathbf{w})$ 可以看成是 $\mathbf{x}$ 属于第一类的条件概率 $p(C_{2}|\mathbf{x})$ , 显然， $p(C_{1}|\mathbf{x})=1-y(\mathbf{x}, \mathbf{w})$ , 这种概率分布可以用伯努利分布来表示:

p (t | x, w) = y (x, w) t (1 ? y (x, w)) 1 ? t

$p(t|\mathbf{x}, \mathbf{w})= y(\mathbf{x}, \mathbf{w})^{t} (1-y(\mathbf{x}, \mathbf{w}))^{1-t}$

那么，给定一组训练数据，含有 $N$ 个独立观测的样本，我们可以建立如下的概率分布:

p (D | w) = \prod n = 1 N p (t n | w) = \prod k = 1 N y n t n (1 ? y n) 1 ? t n

$p(D|\mathbf{w})=\prod_{n=1}^{N}p(t_{n}|\mathbf{w})=\prod_{k=1}^{N} {y_{n}}^{t_{n}}(1-y_{n})^{1-t_{n}}$

这里， $y_{n}=y(\mathbf{x}_{n}, \mathbf{w})$ . 对上式取对数，对应的是似然估计函数:

ln p (D | w) = \sum n = 1 N {t n ln y n + (1 ? t n) ln (1 ? y n)}

$\text{ln} p(D|\mathbf{w})= \sum_{n=1}^{N} \{ t_{n}\text{ln}y_{n} +(1-t_{n})\text{ln}(1-y_{n}) \}$

我们转换成error的时候，当然是希望error越小越好，最大似然估计对应最小的error，所以对上式取负号，可以得到如下的error函数:

E (w) = ? \sum n = 1 N {t n ln y n + (1 ? t n) ln (1 ? y n)}

$E(\mathbf{w})=- \sum_{n=1}^{N} \{ t_{n}\text{ln}y_{n} +(1-t_{n})\text{ln}(1-y_{n}) \}$

这个就是训练二分类神经网络的时候，用的error 函数。

多个二分类

如果是多个二分类同时存在的情况，就像我们之前在离散变量的概率分布里讨论的那样，可以建立如下的概率分布:

p (t | x, w) = \prod k = 1 K y t k k (1 ? y k) (1 ? t k)

$p(\mathbf{t} | \mathbf{x}, \mathbf{w})=\prod_{k=1}^{K} y_{k}^{t_{k}} (1-y_{k})^{(1-t_{k})}$

整个训练集的概率分布可以表示为:

p (D | w) = \prod n = 1 N \prod k = 1 K p (t n k | w) = \prod n = 1 N \prod k = 1 K y n k t n k (1 ? y n k) 1 ? t n k

$p(D|\mathbf{w})=\prod_{n=1}^{N}\prod_{k=1}^{K} p(t_{nk}|\mathbf{w})=\prod_{n=1}^{N} \prod_{k=1}^{K} {y_{nk}}^{t_{nk}}(1-y_{nk})^{1-t_{nk}}$

与二分类的情况类似，我们可以通过似然函数，取负对数，得到相应的error 函数:

E (w) = ? \sum n = 1 N \sum k = 1 K {t n k ln y n k + (1 ? t n k) ln (1 ? y n k)}

$E(\mathbf{w})=- \sum_{n=1}^{N} \sum_{k=1}^{K} \{ t_{nk}\text{ln}y_{nk} +(1-t_{nk})\text{ln}(1-y_{nk}) \}$

多分类

最后，我们再讨论一下多分类的情况，可以用0-1组成的向量来表示输出，每个输出向量中，只有一个1，其它都是0，第几个分量为1，说明输入的 $\mathbf{x}$ 属于第几类。 $y(\mathbf{x}, \mathbf{w})=p(t_{k}=1|\mathbf{x})$ , 这种多分类与上面讨论的多个二分类的情况不同，多分类中，每次的输出向量中只有一个1。显然:

\sum k = 1 K p (t k = 1 | x) = 1

$\sum_{k=1}^{K} p(t_{k}=1|\mathbf{x})=1$

给定一个样本，其概率分布为:

p (t | x, w) = \prod k = 1 K p (t k | x, w) = \prod k = 1 K y k (x, w) t k

$p(\mathbf{t}| \mathbf{x}, \mathbf{w})=\prod_{k=1}^{K} p(t_{k}|\mathbf{x}, \mathbf{w})=\prod_{k=1}^{K} y_{k}(\mathbf{x}, \mathbf{w})^{t_{k}}$

一组训练样本的概率分布可以表示为:

p (D | w) = \prod n = 1 N \prod k = 1 K p (t n k | w) = \prod n = 1 N \prod k = 1 K y n k t n k

$p(D|\mathbf{w})=\prod_{n=1}^{N}\prod_{k=1}^{K} p(t_{nk}|\mathbf{w})=\prod_{n=1}^{N} \prod_{k=1}^{K} {y_{nk}}^{t_{nk}}$

对上式取负对数，我们可以得到多分类的error函数为:

E (w) = ? \sum n = 1 N \sum k = 1 K t n k ln y k (x n, w)

$E(\mathbf{w})= - \sum_{n=1}^{N} \sum_{k=1}^{K} t_{nk}\text{ln}y_{k}(\mathbf{x}_{n}, \mathbf{w})$

其中:

y k (x, w) = exp ( a k ( x , w ) ) \sum j exp ( a j ( x , w ) )

$y_{k}(\mathbf{x}, \mathbf{w}) =\frac{ \text{exp}(a_{k}(\mathbf{x}, \mathbf{w}))}{\sum_{j} \text{exp}(a_{j}(\mathbf{x}, \mathbf{w})) }$

机器学习: 神经网络中的Error函数

标签：

原文地址：http://blog.csdn.net/matrix_space/article/details/51463117

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行