码迷,mamicode.com
首页 > 其他好文 > 详细

吴恩达“机器学习”——学习笔记二

时间:2018-01-24 00:42:55      阅读:144      评论:0      收藏:0      [点我收藏+]

标签:body   均值   strong   参数   class   font   样本   结果   笔记二   

定义一些名词

欠拟合(underfitting):数据中的某些成分未被捕获到,比如拟合结果是二次函数,结果才只拟合出了一次函数。

过拟合(overfitting):使用过量的特征集合,使模型过于复杂。

参数学习算法(parametric learning algorithms):用固定的参数进行数据的拟合。比如线性回归。

非参数学习算法(non-parametric learning algorithms):使用的参数随着训练样本的增多而增多。

局部加权回归(locally weighted regression)

一种非参数学习算法。

算法思想:寻找到theta,使得

技术分享图片, 技术分享图片最小,其中w(i)称为权值,tau称为波长参数。由公式可知,我们在进行局部加权回归时,对离x较近的训练样本赋予了较大的权重,对离x远的样本赋予了较小的权重。可以这样说,我们在对某一个x进行局部加权回归时,只使用x周围的数据。

对线性模型的概率解释

解释为何要在线性回归中选择最小二乘法

技术分享图片,其中varepsilon为误差项(error),假设该误差项服从均值为0,方差为sigma的正态分布,且varepsilon是IID,即独立同分布的。

技术分享图片,将y用varepsilon换掉,则

 

技术分享图片,则

技术分享图片

定义似然函数为

技术分享图片

求出最大似然估计即可

技术分享图片

技术分享图片最小,此处隐含sigma对我们的运算无影响。

 

所以最小二乘法的目的实际上是假设误差项满足高斯分布且独立同分布的条件下使似然性最大化。

第一个分类算法

可以采用线性回归解决分类问题,但是有时候结果是好的,有时候结果是糟糕的,一般不这样做。

讨论二元分类,即y只能取0和1。那么我们的h,即预测值可以假定在0与1之间。所以可以选择logistic(sigmoid)函数来表示我们的h。即

技术分享图片

对分类算法模型的概率解释

假设我们估计的是y=1的时候的概率,那么

技术分享图片

技术分享图片我们可以将两个式子写在一块

技术分享图片

同样进行最大似然估计

技术分享图片

可以用梯度上升技术分享图片

 

算法进行最大似然估计

 技术分享图片

那么学习过程就变成了

技术分享图片

这与在线性回归中使成本函数J最小的学习过程一样!!!

感知器算法(perceptron algorithm)

感知器算法不是使用logistics函数,而是使用以下函数

技术分享图片

同样可以得到相同的学习过程。

 

吴恩达“机器学习”——学习笔记二

标签:body   均值   strong   参数   class   font   样本   结果   笔记二   

原文地址:https://www.cnblogs.com/xxp17457741/p/8338343.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!