机器学习——神经网络

时间：2020-02-03 14:10:32 阅读：93 评论：0 收藏：0 [点我收藏+]

一、神经网络：

1.1非线性假设：

无论是线性回归还是逻辑回归都有这样一个缺点，即：当特征太多时，计算的负荷会非常大。

使用非线性的多项式项，能够帮助我们建立更好的分类模型，但与此同时他们的特征组合就有很多。普通的线性模型无法处理，就需要神经网络。

1.2模型表示1

每一个神经元都可以被认为是一个处理单元/神经核（processing unit/Nucleus），它含有许多输入/树突（input/Dendrite），并且有一个输出/轴突（output/Axon）.神经网络是大量神经元相互链接并通过电脉冲来交流的一个网络。

每一个神经元又是一个学习模型。这些神经元（也叫激活单元，activation unit）采纳一些特征作为输出，并且根据本身的模型提供一个输出。

神经元图：

技术图片

神经网络图：
技术图片

其中：第一层成为输入层（Input Layer），最后一层称为输出层（Output Layer），中间一层成为隐藏层（Hidden Layers）。

一般我们为每一层都增加一个偏差单位（bias unit）然后每层的一个节点都有自己的权重，这样其实就是等价于一个线性模型:y=kx+b;

技术图片

\(a_i^{(j)}\) 代表第j层的第i个激活单元，\(\theta^{(j)}\) 代表从第j层映射到第j+1层时的权重矩阵。

对于

技术图片

特征矩阵的一行给了神经网络，得到\(\theta*X=a\);

1.3模型表示2

利用向量化的方法会使得计算更方便：\(a^{(i)}=g(\theta^{(i-1)}a^{(i-1)})\) (其中每次计算完，都要在后面加一个\(a_0^{(i)}=1\),其中\(a^{(0)}=x\) )

如果是整个训练集的话：\(a^{(i)}=g(\theta^{(i-1)}a^{(i-1)}) 其中a^{(0)}=X^T\) (需要使得每一列是特征)

如果遮住左半部分，其实就是逻辑回归；（别忘了加个\(a_0^{(2)}\) =1），其实\(a^{(2)}\) 是更高级的特征，他们是X决定的，这些特征值比x次方厉害很多，也能更好地预测新数据。

技术图片

1.4多类分类

当我们有不止两种分类时（也就是y=1,2,3...k）,输出就是k个维度，是哪一类，哪一个位置就是1，其余全为1.

如\(\left [ \begin{matrix}1\\0\\0\\0\end{matrix}\right]\)

二、神经网络的学习

2.1代价函数

符号说明：

m：样本个数

(x,y)：一组输入输出

L：神经网络层数

\(L_l\)：每层的神经元个数

\(S_L\) ：最后一层中处理单元的个数

二分类：\(S_L=1\) ,y=0 or 1代表哪一类；

K 类分类：\(S_L=k\) ,\(y_i=1\) 表示分到第i类；

代价函数：
\[ J(\theta)=-\frac{1}{m}[\sum_{i=1}^m\sum_{k=1}^ky_k^{(i)}log(h_\theta(x^{(i)}))_k+(1-y_k^{(i)})log(1-(h_\theta(x^{(i)}))_k)+\frac{\lambda}{2m}\sum_{l=1}^{L-1}\sum_{i=1}^{s_l}\sum_{j=1}^{s_{l+1}}(\theta_{ji}^{(l)})^2] \]