机器学习笔记:朴素贝叶斯方法(Naive Bayes)原理和实现本文主要描述了朴素贝叶斯分类方法,包括模型导出和学习描述。实例部分总结了《machine learning in action》一书中展示的一个该方法用于句子感情色彩分类的程序。
方法概述
学习(参数估计)
实现:朴素贝叶斯下的文本分类
模型概述
朴素贝叶斯方法,是指
朴素:特征条件独立贝叶斯:基于贝叶斯定理
根据贝叶斯定理,对一个分类...
分类:
其他好文 时间:
2015-04-13 01:46:03
阅读次数:
356
What is Text Classification?Text classification typically involves assigning a document to a category by automated or human means. LingPipe provides a...
分类:
其他好文 时间:
2015-04-09 23:32:46
阅读次数:
566
在文本分类中,用于特征选择的统计量主要有这些:特征频度(term frequency,tf)原理是:低频的往往对分类影响不大,从而可以被排除掉。同时,不是所以高频都是影响大的,比如在文本中分布均匀的高频的贡献是不大的。应用: 主要用在文本标引时直接删除某些低频特征 2. 文本频度(documen.....
分类:
其他好文 时间:
2015-03-20 12:36:57
阅读次数:
148
Part4文本分类
Part3文本聚类里讲到过,分类跟聚类的简单差异。所以要做分类我们需要先整理出一个训练集,也就是已经有明确分类的文本;测试集,可以就用训练集来替代;预测集,就是未分类的文本,是分类方法最后的应用实现。
1. 数据准备
训练集准备是一个很繁琐的功能,暂时没发现什么省力的办法,根据文本内容去手动整理。这里还是使用的某品牌的官微数据,根据微博内容,我将它微博...
分类:
编程语言 时间:
2015-03-18 18:08:26
阅读次数:
468
一、简介 关于Mahout的介绍,请看这里:http://mahout.apache.org/ 关于Naive Bayes的资料,请戳这里: Mahout实现了Naive Bayes分类算法,这里我用它来进行中文的新闻文本分类。 官方有一组分类例子,使用20 newsgroups data (htt...
分类:
其他好文 时间:
2015-03-07 18:24:12
阅读次数:
241
一个文本分类问题就是将一篇文档归入预先定义的几个类别中的一个或几个,而文本的自动分类则是使用计算机程序来实现这样的分类。通俗点说,就好比你拿一篇文章,问计算机这文章要说的究竟是体育,经济还是教育,计...
分类:
其他好文 时间:
2015-02-11 00:38:30
阅读次数:
357
http://www.blogjava.net/zhenandaci/archive/2008/06/05/205950.html学习方法:使用样例(或称样本,训练集)来合成计算机程序的过程称为学习方法[22]。监督学习:学习过程中使用的样例是由输入/输出对给出时,称为监督学习[22]。最典型的监督...
分类:
其他好文 时间:
2015-02-04 20:10:02
阅读次数:
225
http://www.blogjava.net/zhenandaci/archive/2009/04/19/266388.html在文本分类的过程中,特征(也可以简单的理解为“词”)从人类能够理解的形式转换为计算机能够理解的形式时,实际上经过了两步骤的量化——特征选择阶段的重要程度量化和将具体文本转...
分类:
其他好文 时间:
2015-02-04 20:08:48
阅读次数:
185
http://www.blogjava.net/zhenandaci/archive/2008/08/31/225966.html前文提到过,除了分类算法以外,为分类文本作处理的特征提取算法也对最终效果有巨大影响,而特征提取算法又分为特征选择和特征抽取两大类,其中特征选择算法有互信息,文档频率,信息...
分类:
编程语言 时间:
2015-02-04 20:05:44
阅读次数:
282
http://www.blogjava.net/zhenandaci/archive/2009/03/24/261701.html前文提到过,除了开方检验(CHI)以外,信息增益(IG,Information Gain)也是很有效的特征选择方法。但凡是特征选择,总是在将特征的重要程度量化之后再进行选...
分类:
其他好文 时间:
2015-02-04 20:05:04
阅读次数:
277