我们在之前文章《NLP系列(2)_用朴素贝叶斯进行文本分类(上)》探讨过,朴素贝叶斯的局限性来源于其条件独立假设,它将文本看成是词袋子模型,不考虑词语之间的顺序信息,就会把“武松打死了老虎”与“老虎打死了武松”认作是一个意思。那么有没有一种方法提高其对词语顺序的识别能力呢?有,就是本节要接到的N-gram语言模型。...
分类:
编程语言 时间:
2016-02-09 13:33:58
阅读次数:
538
我们在之前文章《NLP系列(2)_用朴素贝叶斯进行文本分类(上)》探讨过,朴素贝叶斯的局限性来源于其条件独立假设,它将文本看成是词袋子模型,不考虑词语之间的顺序信息,就会把“武松打死了老虎”与“老虎打死了武松”认作是一个意思。那么有没有一种方法提高其对词语顺序的识别能力呢?有,就是本节要接到的N-gram语言模型。...
分类:
编程语言 时间:
2016-02-09 12:02:14
阅读次数:
508
4.1 基于贝叶斯决策理论的分类方法 朴素贝叶斯 优点:在数据较少的情况下仍然有效,可以处理多类别问题 缺点:对于输入数据的准备方式较为敏感 适用数据类型:标称型数据 贝叶斯决策理论的核心思想:选择具有最高概率的决策。 4.2 条件概率 4.3 使用条件概率来分类 4.4 使用朴素贝叶斯进行文档分类
分类:
其他好文 时间:
2016-02-06 18:27:09
阅读次数:
323
上一篇文章我们主要从理论上梳理了朴素贝叶斯方法进行文本分类的基本思路。这篇文章我们主要从实践上探讨一些应用过程中的tricks,并进一步分析贝叶斯方法,最后以情绪褒贬分析和拼写纠错为例展示这种简单强大的方法在自然语言处理问题上的具体应用。...
分类:
其他好文 时间:
2016-02-03 16:40:01
阅读次数:
452
前两篇博文介绍了朴素贝叶斯这个名字读着"萌蠢"但实际上简单直接高效的方法,我们也介绍了一下贝叶斯方法的一些细节。按照老规矩,『锄头』给你了,得负责教教怎么用和注意事项,也顺便带大家去除除草对吧。恩,此节作为更贴近实际应用的部分,将介绍贝叶斯方法的优缺点、常见适用场景和可优化点,然后找点实际场景撸点例子练练手,看看工具怎么用。...
分类:
其他好文 时间:
2016-02-03 16:38:22
阅读次数:
320
本文为朴素贝叶斯的实践和进阶篇,先丢了点干货,总结了贝叶斯方法的优缺点,应用场景,注意点和一般建模方法。紧接着对它最常见的应用场景,抓了几个例子,又来了一遍手把手系列,不管是对于文本主题分类、多分类问题(犯罪类型分类) 还是 情感分析/分类,朴素贝叶斯都是一个简单直接高效的方法。尤其是在和逻辑回归的对比中可以看出,在这些问题中,朴素贝叶斯能取得和逻辑回归相近的成绩,但是训练速度远快于逻辑回归,真正的直接和高效。...
分类:
其他好文 时间:
2016-02-03 16:37:41
阅读次数:
2963
贝叶斯方法非常强大,有着坚实的理论基础。很多高级自然语言处理模型也可以从它演化而来。因此,学习贝叶斯方法,是研究自然语言处理问题的一个非常好的切入口。 贝叶斯公式贝叶斯公式就一行:P(Y|X)=P(X|Y)P(Y)P(X)P(Y|X)...
分类:
其他好文 时间:
2016-02-01 15:52:47
阅读次数:
483
4.7 示例:使用朴素贝叶斯分类器从个人广告中获取区域倾向 前面介绍了两个应用:1.过滤网站的恶意留言;2.过滤垃圾邮件。 4.7.1 收集数据:导入RSS源 Universal Feed Parser是Python中最常用的RSS程序库。 在Python提示符下输入: 构建类似于spamTest(
分类:
其他好文 时间:
2016-02-01 01:40:51
阅读次数:
404
4.5 使用Python进行文本分类4.5.1 准备数据:从文本中构建词向量#coding:utf-8from numpy import *#准备数据:从文本中构建词向量def loadDataSet(): postingList = [['my', 'dog', 'has', 'flea',...
分类:
其他好文 时间:
2016-01-19 00:09:13
阅读次数:
226
贝叶斯学习方法中实用性很高的一种为朴素贝叶斯学习期,常被称为朴素贝叶斯分类器。在某些领域中与神经网络和决策树学习相当。虽然朴素贝叶斯分类器忽略单词间的依赖关系,即假设所有单词是条件独立的,但朴素贝叶斯分类在实际应用中有很出色的表现。
朴素贝叶斯文本分类算法伪代码:
朴素贝叶斯文本分类算法流程:
通过计算训练集中每个类别的概率与不同类别下每个单词的概率,然后利用朴素贝叶斯公式计...
分类:
其他好文 时间:
2016-01-17 23:20:01
阅读次数:
478