3.多变量线性回归 (Linear Regression with multiple variable)
3.1 多维特征(Multiple Features)
3.2 多变量梯度下降(Gradient descent for multiple variables)
3.3 特征缩放(feature scaling)
3.4 学习率(Learning rate)...
分类:
其他好文 时间:
2015-05-27 14:00:37
阅读次数:
173
单变量线性回归(Linear Regression with One Variable)2.1 模型表达(Model Representation)
m 代表训练集中实例的数量
x 代表特征/输入变量
y 代表目标变量/输出变量
(x,y) 代表训练集中的实例
(x(i),y(i) ) 代表第 i 个观察实例
h 代表学习算法的解决方案或函数也称为假设(hypothesis) 单变量线性回归:只含...
分类:
其他好文 时间:
2015-05-25 11:31:53
阅读次数:
218
随机梯度下降(Stochastic gradient descent)和 批量梯度下降(Batch gradient descent )的公式对比、实现对比分类:梯度下降最优化2013-05-25 21:2122978人阅读评论(16)收藏举报梯度下降最优化迭代梯度下降(GD)是最小化风险函数、损失...
分类:
其他好文 时间:
2015-05-21 12:07:43
阅读次数:
156
1. 梯度下降法 导数为0, 所以直接沿导数方向。 learning rate 过小:,过大。 越靠近极值,梯度下降步长越小。 用上所有的training数据,叫batch gradient descent. 计算梯度时要用同一个时刻的值,不能用更新后的值。 迭代停止条件:2. feat...
分类:
系统相关 时间:
2015-05-19 22:23:26
阅读次数:
219
机器学习算法中如何选取超参数:学习速率、正则项系数、minibatch size本文是《Neural networks and deep learning》概览中第三章的一部分,讲机器学习算法中,如何选取初始的超参数的值。(本文会不断补充)学习速率(learning rate,η)运用梯度下降算法进...
分类:
编程语言 时间:
2015-05-19 22:23:04
阅读次数:
167
梯度下降法和牛顿法是最常见的两个模型训练算法了,现在对这两个算法做一个比较:梯度下降法牛顿法迭代公式\[{w^{(k + 1)}} = {w^{(k)}} - \alpha \nabla J({w^{(k)}})\]\[{w^{(k + 1)}} = {w^{(k)}} - {H^{ - 1}}({...
分类:
其他好文 时间:
2015-05-18 18:33:45
阅读次数:
107
感知机:这是最简单的一个机器学习算法,不过有几点还是要注意一下。 首先是损失函数的选取,还有为了使损失函数最小,迭代过程采用的梯度下降法,最后得到最优的w,b 直观解释就是,调整w,b的值,使分离超平面向误分类点移动,以减小误分点与超平面的距离,直至超平面 ...
分类:
编程语言 时间:
2015-05-05 10:24:34
阅读次数:
135
首先定义几个符号:Xivector[X]:input dataYivector[Y]:output datah(X)hypothesis function对于输入的数据给出预测值Y is continous variation?regression problem(回归问题)Y is discret...
分类:
编程语言 时间:
2015-05-04 01:15:00
阅读次数:
270
1.感知机:二类分类的线性模型,输入为实例的特征向量,输出为某类别,取+1和-1.目的在求出将训练数据进行线性划分的分离超平面,导入基于误分类的损失函数,利用梯度下降法对损失函数进行极小化求得感知机模型。2.感知机模型: ,sign为符号函数,w为权值或权向量,b为偏置。 其几何解释:对应一个越.....
分类:
其他好文 时间:
2015-04-29 23:04:34
阅读次数:
186
Logistic回归的理论内容上篇文章已经讲述过,在求解参数时可以用牛顿迭代,可以发现这种方法貌似太复杂,今天我们介绍另一种方法,叫梯度下降。当然求最小值就是梯度下降,而求最大值相对就是梯度上升。由于,如果,那么得到现在我们要找一组,使得所有的最接近,设现在我们要找一组,使得最小。这就是今天要介绍的...
分类:
编程语言 时间:
2015-04-25 11:56:04
阅读次数:
253