标签:
三、How Can Machines Learn?
第三节首先介绍了linear regression,线性可分的线性规划是有analytic solution的,林老师给我们推了一下,关键就是矩阵化的处理,简化了很多的工作
上面三幅图是整个推导的过程,需要注意的是,最后的X不一定是可逆的,因为我们的数据的数量N一般来说远大于d+1。所以x不可逆的可能性太大的,一般这时候就用伪逆来解决。
后面是解释为什么可以学习,经过一系列的推导可以得到下图:
这个是相当符合的我们的直观感受的,因为我们是用训练集去估计整个的假设空间,因为N越大,Ein接越接近于Eout。
然而在做classification的时候,我们还有更好的选择,logistic regression,它的输出可以理解为x属于某个label的概率,因为他S型的曲线,在machine learning中,logistic regression出场率相当高,而在优化它的时候我们一般用交叉熵作为误差函数,这个推导有两种方法,我一般是用最大似然函数去理解的。
cross entropy的梯度推导跟deep learning中的BP算法原理是一致的,他们都是基于链式法则来做的,然而有一次面试我还是没推出来,总之,还是要多去自己动手!
有了梯度以后,在用GD或者SGD就能求出解了。
标签:
原文地址:http://www.cnblogs.com/daihengchen/p/5897607.html