本节课主要介绍了关于机器学习中的过拟化问题。作者指出,区别一个专业级玩家和业余爱好者的方法之一就是他们如何处理过拟化问题。通过该课程,我们可以知道样本数据的拟合并不是越高越好,因为噪声的存在将使得过拟化问题的出现。最后简介了处理过拟合的两种方法。...
分类:
其他好文 时间:
2014-11-07 23:29:28
阅读次数:
273
模式在变量定义中 在定义val或者var的时候,可以使用模式替代简单的标识符,如可以使用模式拆分元组,并把每个值分配给变量val myTuple = (123,"abc")var (num,str) = myTuple 如此,num=123,str="abc" 如果知道正在使用的样本类的精确结...
分类:
其他好文 时间:
2014-11-06 23:24:22
阅读次数:
249
样本类:添加了case的类便是样本类。这种修饰符可以让Scala编译器自动为这个类添加一些语法上的便捷设定。//样本类case class//层级包括一个抽象基类Expr和四个子类,每个代表一种表达式//样本类自动添加与类名一致的工厂方法abstract class Exprcase class V...
分类:
其他好文 时间:
2014-11-06 17:00:52
阅读次数:
165
日志样本: 囧,日志格式是我随便定得(莫喷,在明珠时有专门的数据组统计日志,日志都非常规范,在这完全乱套了),为了方便统计支付成功的总金额旁边都空了个空格,这样的话方便使用awk取出金额! [INFO] 2014-...
分类:
其他好文 时间:
2014-11-05 23:21:40
阅读次数:
494
前面介绍了k-means算法,并列举了该算法的缺点。而K中心点算法(K-medoids)正好能解决k-means算法中的 “噪声”敏感这个问题。
如何解决的呢?
首先,我们得介绍下k-means算法为什么会对“噪声”敏感。还记得K-means寻找质点的过程吗?对某类簇中所有的样本点维度求平均值,即获得该类簇质点的维度。当聚类的样本点中有“噪声”(离群点)时,在计算类簇质点的过程中会受到...
分类:
编程语言 时间:
2014-11-05 13:02:45
阅读次数:
204
层次聚类算法:
前面介绍的K-means算法和K中心点算法都属于划分式(partitional)聚类算法。层次聚类算法是将所有的样本点自底向上合并组成一棵树或者自顶向下分裂成一棵树的过程,这两种方式分别称为凝聚和分裂。
凝聚层次算法:
初始阶段,将每个样本点分别当做其类簇,然后合并这些原子类簇直至达到预期的类簇数或者其他终止条件。
分裂层次算法:
初始阶段,将所有的样本点当做同一类簇,然...
分类:
编程语言 时间:
2014-11-05 13:01:24
阅读次数:
284
一 什么是基于密度的聚类算法
由于层次聚类算法和划分式聚类算往往只能发现凸形的聚类簇。为了弥补这一缺陷,发现各种任意形状的聚类簇,开发出基于密度的聚类算法。这类算法认为,在整个样本空间点中,各目标类簇是由一群的稠密样本点组成的,而这些稠密样本点被低密度区域(噪声)分割,而算法的目的就是要过滤低密度区域,发现稠密样本点。
二 DBSCAN(Density-based Spatial ...
分类:
数据库 时间:
2014-11-05 13:00:41
阅读次数:
308
样本空间对于随机试验,尽管在每次试验之前不能预知试验的结果,但是试验的所有可能结果集合是已知的,我们将随机试验E的所有可能的结果组成的集合称为E的样本空间,记为S。样本空间的的元素,即E的每个可能结果,称为样本点。比如事件E:抛一枚硬币,观察正面H,反面T出现的情况,S={H,T}。频率 概率频率描...
分类:
其他好文 时间:
2014-11-04 14:25:48
阅读次数:
237
朴素贝叶斯(NaiveBayesian)算法的核心思想是:分别计算给定样本属于每个分类的概率,然后挑选概率最高的作为猜测结果。假定样本有2个特征x和y,则其属于分类1的概率记作p(C1|x,y),它的值无法直接分析训练样本得出,需要利用公式间接求得。其中p(Ci)表示训练样本中分类为Ci的..
分类:
编程语言 时间:
2014-11-03 10:22:12
阅读次数:
246
本次我们采用了调查问卷的方式,共六个具有代表性的问题,调查样本为30人,以下为具体调查结果。1.您的性别 男(18) 女(12)2.您常用的系统 windows(21) imac(7) linux(2)3.您对系统内置搜索引擎的感受 很赞(6) 一般般(10) 很差(14)4.您常用的搜...
分类:
其他好文 时间:
2014-11-02 22:10:30
阅读次数:
149