生活中很多场合需要用到分类,比如新闻分类、病人分类等等。 本文介绍朴素贝叶斯分类器(Naive Bayes classifier),它是一种简单有效的常用分类算法。 一、病人分类的例子 让我从一个例子开始讲起,你会看到贝叶...
分类:
其他好文 时间:
2014-12-04 01:12:30
阅读次数:
333
我们知道利用JSON模块可方便的将Python基本类型(dict、list等)数据永久的存储成文件,同时也可以通过自定义转换函数和继承JSON encode&decode的方法实现自定义类的存储。本文就在前文“ Python JSON模块”的基础上,实现python支持JSON存储的对象。
对象能够采取JSON存储和解析是有很大意义的。例如机器学习中所有分类算法的训练过程中都存在大量的数据计算,如果每次启动分类都需要重新训练分类算法浪费资源且没有效率,如果能够将训练产生的分类算法对象保存起来,那么除非需要...
分类:
编程语言 时间:
2014-11-28 14:27:15
阅读次数:
276
参考了许多资料加上个人理解,对十大算法进行如下分类:
?分类算法:C4.5,CART,Adaboost,NaiveBayes,KNN,SVM
?聚类算法:KMeans
?统计学习:EM
?关联分析:Apriori
?链接挖掘:PageRank...
分类:
编程语言 时间:
2014-11-03 11:32:18
阅读次数:
241
1.综述: 贝叶斯分类方法是统计学分类方法。它们可以预测类隶属关系的概率,如一个给定的元组属于一个特定类的概率。贝叶斯分类基于贝叶斯定理。分类算法的比较研究发现,一种称为朴素贝叶斯分类法的简单贝叶斯分类法可以与决策树和经过挑选的神经网络分类器相媲美。用于大型数据库,贝叶斯分类法也已表现出高准确率和....
分类:
其他好文 时间:
2014-11-01 16:02:39
阅读次数:
240
1. 简述: 简单地说,谷近邻算法采用测量不同特征值之间的距离方法进行分类。 优点:精度高、对异常值不敏感、无数据输入假定。 缺点:计算复杂度高、空间复杂度高。 适用数据范围:数值型和标称型。 2.工作原理是...
分类:
编程语言 时间:
2014-10-30 19:28:52
阅读次数:
198
一、 前言贝叶斯分类,是机器学习中比较重要并被广泛使用的一个分类算法,它分类思想主要基于贝叶斯定理。用一句话来描述就是,如果一个事件A发生时,总是伴随事件B,那么事件B发生时,事件A发生的概率也会很大。贝叶斯分类一个很常见的用途是用在识别垃圾邮件上。我们给定一个学习集,程序通过学习集发现,在垃圾邮件...
分类:
编程语言 时间:
2014-10-27 14:12:24
阅读次数:
284
Adaboost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。...
分类:
编程语言 时间:
2014-10-24 13:03:41
阅读次数:
303
多层数据结构估计所有的web开发者估计都不会陌生,各种软件的分类都是基于多层结构来设计的。下面是一个典型的多层数据结构示意图:相关创建数据语句:CREATETABLEcategory(category_idINTAUTO_INCREMENTPRIMARYKEY,nameVARCHAR(20)NOTN...
分类:
编程语言 时间:
2014-10-24 01:36:49
阅读次数:
335
1.1、摘要 贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。本文作为分类算法的第一篇,将首先介绍分类问题,对分类问题进行一个正式的定义。然后,介绍贝叶斯分类算法的基础——贝叶斯定理。最后,通过实例讨论贝叶斯分类中最简单的一种:朴素贝叶斯分类。1.2、分类问题综述 ...
分类:
编程语言 时间:
2014-10-21 10:17:44
阅读次数:
604
这是分类算法。之前的回归问题尝试预测的变量y是连续变量,在这个分类算法中,变量y是离散的,y只取{0,1}两个值。一般这种离散二值分类问题用线性回归效果不好。比如x3,y=1,那么当x>3的样本占得比例很大是,线性回归的直线斜率就会越来越小,y=0.5时对应的x判决点就会比3大,造成预测错误。若y取...
分类:
其他好文 时间:
2014-10-19 18:21:19
阅读次数:
179