朴素贝叶斯(Naive Bayes)及Python实现 http://www.cnblogs.com/sumai 1.模型 在GDA 中,我们要求特征向量 x 是连续实数向量。如果 x 是离散值的话,可以考虑采用朴素贝叶斯的分类方法。 以垃圾邮件分类为例子,采用最简单的特征描述方法,首先找一部英语词
分类:
编程语言 时间:
2016-03-10 01:29:11
阅读次数:
370
贝叶斯分类是统计学的一个分类方法,基于贝叶斯定理。首先贝叶斯分类的一个核心如果是一个属性值对给定类的影响独立于其它属性的值(类条件独立)。 先来看下条件概率: 设A、B是两个事件,且P(B)>0,则称 为在事件B发生的条件下,事件A的条件概率。 再来看一下贝叶斯定理:。 当中: X 是类标识未知的数
分类:
其他好文 时间:
2016-03-01 12:59:37
阅读次数:
202
4.1 基于贝叶斯决策理论的分类方法 朴素贝叶斯 优点:在数据较少的情况下仍然有效,可以处理多类别问题 缺点:对于输入数据的准备方式较为敏感 适用数据类型:标称型数据 贝叶斯决策理论的核心思想:选择具有最高概率的决策。 4.2 条件概率 4.3 使用条件概率来分类 4.4 使用朴素贝叶斯进行文档分类
分类:
其他好文 时间:
2016-02-06 18:27:09
阅读次数:
323
4.7 示例:使用朴素贝叶斯分类器从个人广告中获取区域倾向 前面介绍了两个应用:1.过滤网站的恶意留言;2.过滤垃圾邮件。 4.7.1 收集数据:导入RSS源 Universal Feed Parser是Python中最常用的RSS程序库。 在Python提示符下输入: 构建类似于spamTest(
分类:
其他好文 时间:
2016-02-01 01:40:51
阅读次数:
404
这篇文章讲kNN(k近邻,k-Nearest Neighbour)。这是一种lazy-learning,实现方便,很常用的分类方法。约定n为样本集中的样本数,m为样本的维度,则这个算法的训练复杂度为0,未加优化(线性扫描)的分类时间复杂度为,kd-Tree优化后复杂度可降为。 思路、优点及缺陷 该方
分类:
编程语言 时间:
2016-01-30 01:54:39
阅读次数:
257
下面的以zendframework 1为例getSubs($categorys,$item['categoryId'],$level+1)); } } return $subs; } //获取某个分类的所有父分类 //方法一,递归 function getPare...
分类:
Web程序 时间:
2016-01-24 11:32:48
阅读次数:
176
1category只能添加方法,不能添加属性2 使用@property只会生成get/set方法,不会生成私有成员变量3 分类可以访问原有类中的属性4 分类中有同名方法不会报错,分类方法会覆盖原有类方法。调用顺序:分类、本类、父类5 多个分类中有同名方法会调用最后编译的那个(不要这样用)
分类:
其他好文 时间:
2016-01-23 17:52:33
阅读次数:
123
4.5 使用Python进行文本分类4.5.1 准备数据:从文本中构建词向量#coding:utf-8from numpy import *#准备数据:从文本中构建词向量def loadDataSet(): postingList = [['my', 'dog', 'has', 'flea',...
分类:
其他好文 时间:
2016-01-19 00:09:13
阅读次数:
226
我的2015技术学习流水账2015年马上就要过去了,匆匆忙忙地又是一年。回头总结整理,发现这一年还挺充实的。在正常上班工作之余,学习到了不少新东西,不禁感到很欣慰!一个多月前就开始写,终于赶在2016年来临之前写完了这篇文章…… 关于本文,尽管叫做流水账,但是出于程序员条理性的“强迫症”,还是进行系统分类,分类方法参照Thoughtworks技术雷达的Tecniques、Languages & Fr...
分类:
其他好文 时间:
2015-12-30 22:13:39
阅读次数:
659
目前看到的比较全面的分类算法,总结的还不错. 主要分类方法介绍解决分类问题的方法很多[40-42] ,单一的分类方法主要包括:决策树、贝叶斯、人工神经网络、K-近邻、支持向量机和基于关联规则的分类等;另外还有用于组合单一分类方法的集成学习算法,如Bagging和Boosting等。 (1...
分类:
编程语言 时间:
2015-11-28 20:03:30
阅读次数:
186