一种用于度量聚类效果的指标使SSE(误差平方和),SSE值越小表示数据点越接近于他们的质心,聚类效果也越好。因为对误差取了平方,因此更加重视那些远离中心的点。一种肯定可以降低SSE值的方法是增加簇的个数,但这违背了聚类的目标。聚类的目标是在保持簇数目不变的情况下提高簇的质量 二分 K-均值算法 为克 ...
分类:
其他好文 时间:
2018-07-23 20:50:02
阅读次数:
160
java保留两位小数的方法 BigDecimal工具类 总所周知,java在浮点型运算时是非精确计算,如下demo 在商业运算中,这点微小的误差有可能造成非常严重的后果。 所以在商业应用开发中,涉及金额等浮点数计算的数据,全部使用BigDecimal进行加减乘除计算 BigDecimal工具类代码: ...
分类:
编程语言 时间:
2018-07-23 12:30:19
阅读次数:
172
偏差方差分解 (误差分解) 先引入一个问题: Machine Learning 与 Curve Fitting 的区别是什么?[^curv fit] Curve Fitting 是使用所有的数据拟合一条曲线; 而 Machine Learning 是采用真实世界中采样的一小部分数据,并且我们希望我们 ...
分类:
其他好文 时间:
2018-07-22 23:41:15
阅读次数:
262
defaultdict(set_type) 可以定义字典多值映射,入参类型决定value类型。 例子: deque:(int) 保留最后N个元素 例子: Decimal(float) 直接对浮点数进行计算有微小误差,Decimal可以对浮点数进行精确计算。 例子: dropwhile(callabl ...
分类:
编程语言 时间:
2018-07-19 21:14:36
阅读次数:
148
反向传播这个术语经常被误解为用于多层神经网络的整个学习算法。实际上,反向传播仅指用于计算梯度的方法,而另一种算法,例如随机梯度下降,使用该梯度来进行学习。此外,反向传播经常被误解为仅适用于多层神经网络,但是原则上它可以计算任何函数的导数(对于一些函数,正确的响应是报告函数的导数是未定义的)。 ...
分类:
编程语言 时间:
2018-07-19 13:46:29
阅读次数:
253
1、过拟合和欠拟合怎么判断,如何解决? 答:主要可以通过训练误差和测试误差入手判断是否过拟合或欠拟合。一般而言训练误差很低,但是测试误差较高,过拟合的概率较大,如果训练误差和测试误差都很高,一般是欠拟合。过拟合可以从增加样本量,减少特征数,降低模型复杂度等方面入手,实际的例子比如线性回归中,对于几十 ...
分类:
编程语言 时间:
2018-07-18 23:34:22
阅读次数:
235
回归问题的典型性能度量是均方根误差(RMSE:Root Mean Square Error)。如下公式。 以上,我们使用小写斜体表示标量(m,y(i)),函数名(h)。小写粗体表示向量(x(i)). 大写粗体表示矩阵(X). 还有一种度量方法为: Mean Absolute Error. 理解起来也 ...
分类:
其他好文 时间:
2018-07-18 10:57:59
阅读次数:
194
相机IMU融合四部曲(二):误差状态四元数详细解读 极品巧克力 前言 上一篇文章,《D-LG-EKF详细解读》中,讲了理论上的SE3上相机和IMU融合的思想。但是,还没有涉及到实际的操作,以及实际操作中会遇到的一些问题。所以,本文开始讲实际操作,包括,在相机和IMU融合的过程中,IMU速度的计算,加 ...
分类:
其他好文 时间:
2018-07-14 23:34:56
阅读次数:
433
“数值”优化:设置算法时,要考虑舍入误差。 数值优化问题分类: 无约束优化 VS 约束优化 线性规划。目标函数和约束函数都是线性的 二次规划。目标函数为二次的,约束函数为线性。 凸优化。目标函数为凸的,约束函数为线性的。 局部解 VS 全局解 连续 VS 离散 确定 VS 随机 无约束优化问题基础 ...
分类:
其他好文 时间:
2018-07-14 20:37:24
阅读次数:
137
一、什么是正则化 正则化即为对学习算法的修改,旨在减少泛化误差而不是训练误差。正则化的策略包括: (1)约束和惩罚被设计为编码特定类型的先验知识 (2)偏好简单模型 (3)其他形式的正则化,如:集成的方法,即结合多个假说解释训练数据 在实践中,过于复杂的模型不一定包含数据的真实的生成过程,甚至也不包 ...
分类:
其他好文 时间:
2018-07-14 20:03:37
阅读次数:
331