BlinkDB是一个用于在海量数据上进行交互式SQL的近似查询引擎。 它允许用户通过在查询准确性和查询响应时间之间做出权衡,完成近似查询。 其数据的精度被控制在允许的误差范围内。 为了达到这个目标,BlinkDB的核心思想是:通过一个自适应优化框架,随着时间的推移,从原始数据建立并维护一组多维样本; ...
分类:
数据库 时间:
2016-07-31 22:10:41
阅读次数:
822
概述原型聚类是指聚类结构能通过一组原型刻画,原型是指样本空间中具有代表性的点。通常情况下,算法先对原型进行初始化,然后对原型进行迭代更新求解,下面是几种著名的原型聚类算法。K均值算法给定样本集合D,K均值算法针对聚类所得簇划分C,最小化平方误差
E=∑ki=1∑x∈Ci||x?μi||22E = \sum_{i=1}^k \sum_{x\in Ci}||x-\mu_i||_2^2
其中μi=1|...
分类:
其他好文 时间:
2016-07-19 10:33:59
阅读次数:
435
第2章 模型评估与选择 2.1 经验误差与过拟合 学习器在训练集上的误差称为“训练误差”或“经验误差”,在新样本上的误差称为“泛化误差”;过拟合一般是由于学习能力过于强大,以至于把训练样本所包含的不太一般的特性都学到了,而欠拟合则通常是由学习能力低下而造成的。欠拟合比较容易克服,例如在决策树学习中扩 ...
分类:
其他好文 时间:
2016-07-19 09:11:33
阅读次数:
622
正态分布(Normal distribution),也称“常态分布”,又名高斯分布(Gaussian distribution),最早由A.棣莫弗在求二项分布的渐近公式中得到。C.F.高斯在研究测量误差时从另一个角度导出了它。P.S.拉普拉斯和高斯研究了它的性质。[1] 是一个在数学、物理及工程等领 ...
分类:
其他好文 时间:
2016-07-14 15:06:33
阅读次数:
171
35进制的目的是防止0和O造成的视觉误差 BEGIN DECLARE m_StrHex35 VARCHAR(100); -- 返回35进制表示的结果 DECLARE m_Remainder BIGINT; -- 余数 DECLARE m_Base35 VARCHAR(1); SET m_Remain ...
分类:
数据库 时间:
2016-07-14 14:57:22
阅读次数:
154
机器学习的应用建议
好久没有更新机器学习的学习笔记了,上一次还是更新的神经网络的部分。这一次我们来聊一聊,机器学习的应用建议。
决定下一步做什么
假设我们需要用一个线性回归模型(Linear Regression)来预测房价,当我们运用训练好了的模型来预测未知数据的时候,发现有较大的误差,我们下一步可以做什么?
获得更多的训练实例——通常是有效的,但是代价较大,下面的方法也...
分类:
其他好文 时间:
2016-07-13 17:34:10
阅读次数:
216
模型性能评估综述对于模型性能的评估,我们通常分为一下三步:
1. 对数据集进行划分,分为训练集和测试集两部分;
2. 对模型在测试集上面的泛化性能进行度量;
3. 基于测试集上面的泛化性能,依据假设检验来推广到全部数据集上面的泛化性能数据集的划分对于模型来说,其在训练集上面的误差我们称之为“训练误差”或者“经验误差”,而在测试集上的误差称之为“测试误差”。因为测试集是用来测试学习期对于新样本的...
分类:
其他好文 时间:
2016-07-13 17:07:38
阅读次数:
2081
用一个模型来做预测,预测误差的来源主要有两部分,分别为 bias 与 variance ,模型的性能取决于 bias 与 variance 的 tradeoff ,理解 bias 与 variance 有助于我们诊断模型的错误,且避免 over-fitting 或者 under-fitting. 数... ...
分类:
其他好文 时间:
2016-07-08 21:28:26
阅读次数:
120
比较均值:列表和图形 拆分文件 单因素方差分析 双因素方差分析(含交互项、只含主效应) 组间两两比较 随机因素分析 方差分析原理: 变异分解。将样本的总变异分解为随机误差的作用、某影响因素的作用。通过比较某影响因素所致变异与随机误差所致变异的大小建立F检验统计量进行检验。 yij=总平均+ai+随机 ...
分类:
其他好文 时间:
2016-07-07 17:18:52
阅读次数:
732