Apache Mahout项目主要包括以下五个部分:
频繁模式挖掘:挖掘数据中频繁出现的项集。
聚类:将诸如文本、文档之类的数据分成局部相关的组。
分类:利用已经存在的分类文档训练分类器,对未分类的文档进行分类。
推荐引擎(协同过滤):获得用户的行为并从中发现用户可能喜欢的事务。
频繁子项挖掘:利用一个项集(查询记录或购物目录)去识别经常一起出现的项目。
在Maho...
分类:
其他好文 时间:
2014-10-06 00:55:49
阅读次数:
346
Weka算法Classifier-meta-AdaBoostM1源码分析(一)...
分类:
其他好文 时间:
2014-10-05 02:20:37
阅读次数:
286
为啥会有SPM→ScSPM呢?原因之一是为了寻找better coding + better pooling的方式提高性能,原因之二就是提高速度。如何提高速度?这里的速度,不是Coding+Pooling的速度,而是分类器的速度。SPM设计的是一个Linear feature,在文章中作者用于实验则...
分类:
其他好文 时间:
2014-10-02 21:34:13
阅读次数:
430
上回说到对于文本分类这样的不适定问题(有一个以上解的问题称为不适定问题),需要有一个指标来衡量解决方案(即我们通过训练建立的分类模型)的好坏,而分类间隔是一个比较好的指标。在进行文本分类的时候,我们可以让计算机这样来看待我们提供给它的训练样本,每一个样本由..
分类:
其他好文 时间:
2014-10-01 01:07:21
阅读次数:
535
线性分类器(一定意义上,也可以叫做感知机)是最简单也很有效的分类器形式.在一个线性分类器中,可以看到SVM形成的思路,并接触很多SVM的核心概念.用一个二维空间里仅有两类样本的分类问题来举个小例子。如图所示C1和C2是要区分的两个类别,在二维平面中它们的样本如上图所示。中间..
分类:
其他好文 时间:
2014-10-01 00:50:50
阅读次数:
317
朴素贝叶斯分类器一、贝叶斯定理所谓"条件概率"(Conditional probability),就是指在事件B发生的情况下,事件A发生的概率,用P(A|B)来表示。根据文氏图,可以发现同理可得,所以,即其中,P(A)称为"先验概率"(Prior probability),即在B事件发生之前,我们对...
分类:
其他好文 时间:
2014-09-30 20:38:00
阅读次数:
330
今天介绍一种简单高效的分类器——朴素贝叶斯分类器(Naive Bayes Classifier)。
相信学过概率论的同学对贝叶斯这个名字应该不会感到陌生,因为在概率论中有一条重要的公式,就是以贝叶斯命名的,这就是“贝叶斯公式”...
分类:
其他好文 时间:
2014-09-30 10:02:52
阅读次数:
221
opencv中具有检测人体各部分的级联分类器,在opencv文件夹里面的sources/data/haarcascades里面。这里要选择的是能够检测人体头像的还有检测眼睛的级联分类器的文件。它们分别是:检测头像haarcascade_frontalface_alt.xml或者haarcascade...
分类:
其他好文 时间:
2014-09-28 01:03:40
阅读次数:
336
贝叶斯分类器 贝叶斯分类器的分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。眼下研究较多的贝叶斯分类器主要有四种,各自是:Naive Bayes、TAN、BAN和GBN。 贝叶斯网络是一个带有概率...
分类:
其他好文 时间:
2014-09-27 17:36:30
阅读次数:
185
Weka算法Classifier-trees-REPTree源码分析(二)...
分类:
其他好文 时间:
2014-09-22 01:22:31
阅读次数:
489