感知机: 1.感知机关键在于损失函数最小化 2.当初值和分类点选择顺序不同时,算得的结果不同。 3.当线性不可分时,感知机算法不收敛,迭代结果震荡。 4.感知机和随机梯度下降。 5.pocket algorithm 口袋算法:每次梯度下降时和“口袋”比较,将损失更小的放到“口袋”里。 6.voted ...
分类:
其他好文 时间:
2018-11-09 16:12:10
阅读次数:
169
本文以二维线性拟合为例,介绍批量梯度下降法、随机梯度下降法、小批量梯度下降法三种方法,求解拟合的线性模型参数。 需要拟合的数据集是 $(X_1, y_1), (X_2, y_2)..., (X_n, y_n)$,其中$X^i=(x_1^i, x_2^i)$,表示2个特征,$y^j$是对应的回归值。 ...
分类:
其他好文 时间:
2018-10-25 00:15:11
阅读次数:
161
引入 1. 随机梯度下降的特点 随机梯度下降法 (Stochastic Gradient Descent)作为深度学习中主流使用的最优化方法, 有以下的优点: 躲避和逃离假的 鞍点 和 局部极小点 的能力 这篇论文认为, 这些 局部极小 也包含着一些有用的信息, 能够帮助提升模型的能力. 2. 局部 ...
分类:
其他好文 时间:
2018-10-07 12:08:29
阅读次数:
841
机器学习 2 线性回归 首先吐槽我们的老师上课上得真是太烂了。。真的烂。。 PPT里也只会对没有意义的公式,而且还不解释是在干什么。。 回归 1. 什么是回归 首先 回归 属于 监督学习 的一种,回归问题中,尝试预测连续的输出,与尝试预测离散的输出的 分类 问题恰恰相反。 举个例子: 预测房价 预测 ...
分类:
其他好文 时间:
2018-10-05 23:27:18
阅读次数:
342
降低损失 (Reducing Loss) 为了训练模型,我们需要一种可降低模型损失的好方法。迭代方法是一种广泛用于降低损失的方法,而且使用起来简单有效 了解如何使用迭代方法来训练模型。 全面了解梯度下降法和一些变体,包括: 小批量梯度下降法 随机梯度下降法 尝试不同的学习速率。 降低损失:迭代方法 ...
分类:
其他好文 时间:
2018-09-25 22:51:28
阅读次数:
243
梯度下降 梯度下降(GD)是最小化风险函数、损失函数的一种常用方法,随机梯度下降和批量梯度下降是两种迭代求解思路。 随机梯度下降Stochastic gradient descent) 随机梯度下降是通过每个样本来迭代更新一次,如果样本量很大的情况(例如几十万),那么可能只用其中几万条或者几千条的样 ...
分类:
其他好文 时间:
2018-09-22 23:47:08
阅读次数:
199
梯度下降(GD) 梯度的本意是一个向量,表示某一函数在该点处的方向导数沿着该方向取得最大值,导数对应的是变化率 即函数在该点处沿着该方向变化最快,变化率最大(为该梯度的模) 随机梯度下降(SGD):每次迭代随机使用一组样本 针对BGD算法训练速度过慢的缺点,提出了SGD算法,普通的BGD算法是每次迭 ...
分类:
其他好文 时间:
2018-09-14 22:53:31
阅读次数:
151
算法具体可以参照其他的博客: 随机梯度下降: 小批量梯度下降: 通过迭代,结果会收敛到8和3 ...
分类:
编程语言 时间:
2018-08-20 20:13:55
阅读次数:
476
1.学习大数据集 图1.学习大数据集 当数据集量为m=1亿时,进行梯度下降将会花费较大时间。 可以使用小量数据集进行训练,然后得出学习曲线。 左图是高方差,右图是高偏差。 总之是要通过高效的学习算法来进行大数据学习。 2.随机梯度下降 图2.批梯度下降 假设是美国人口普查的数据,m=3亿,如果需要每 ...
分类:
其他好文 时间:
2018-08-20 13:10:57
阅读次数:
131
机器学习算法的目标是降低期望泛化误差。这个数据量被称为 风 险(risk)。在这里,我们强调该期望取自真实的潜在分布 p_data 。如果我们知道了真 实分布 p_data (x, y),那么最小化风险变成了一个可以被优化算法解决的优化问题。然 而,我们遇到的机器学习问题,通常是不知道 p_da... ...
分类:
编程语言 时间:
2018-08-19 12:59:39
阅读次数:
228