标签:
前面我们介绍过分类器模型一般包含两大部分,一部分是score function,将输入的原始数据映射到每一类的score,另外一个重要组成部分是loss function,计算预测值
与实际值之间的误差,具体地,给定一个线性分类函数:
一般来说,我们定义的loss function中,里面涉及的输入变量都是高维的向量,要让它们直接可视化是不可能的,我们可以通过低维的情况下得到一些直观的印象,让loss在直线或者平面上变化,比如
我们可以先初始化一个权值矩阵
一条曲线,同样,我们可以让
我们可以通过从数学的角度解释这个loss function,考虑只有一个样本的情况,我们有:
从这个表达式可以看出,样本的loss是
的loss可以表示为:
上图给出的是一维的情况,如果是高维的话,这个要复杂的多,我们希望找到一个
问题,但是我们后面介绍的神经网络,其loss function是比这更复杂的一类函数,不是单纯地凸函数。上面的图形告诉我们这个loss function不是处处可导的,但是我们
可以利用函数subgradient(局部可导)的性质,来优化这个函数。
直接用凸优化的相关方法来找这个
方案一:随机搜索
最简单,但是最糟糕的方案就是随机搜索,我们对
方案二:随机局部搜索
在随机搜索的基础上,加上一个局部搜索,即
局部搜索。
方案三:梯度下降
最简洁高效的算法就是梯度下降法,这种方法也是神经网络优化方法中用的最多的一种方法。
一般来说,我们会Back-propagation去计算loss function对
声明:lecture notes里的图片都来源于该课程的网站,只能用于学习,请勿作其它用途,如需转载,请说明该课程为引用来源。课程网站: http://cs231n.stanford.edu/
Convolutional Neural Networks for Visual Recognition 3
标签:
原文地址:http://blog.csdn.net/matrix_space/article/details/46573669