从决策树学习谈到贝叶斯分类算法、EM、HMM引言 近期在面试中,除了基础 & 算法 & 项目之外,经常被问到或被要求介绍和描写叙述下自己所知道的几种分类或聚类算法(当然,这全然不代表你将来的面试中会遇到此类问题,仅仅是由于我的简历上写了句:熟悉常见的聚类 & 分类算法而已),而我向来恨对...
分类:
编程语言 时间:
2015-02-20 18:33:53
阅读次数:
780
关于分类算法我们之前也讨论过了KNN、决策树、naivebayes、SVM、ANN、logistic回归。关于这么多的分类算法,我们自然需要考虑谁的表现更加的优秀。 既然要对分类算法进行评价,那么我们自然得有评价依据。到目前为止,我们讨论分类的有效性都是基于分类成功率来说的,但是这个指标科学吗...
分类:
编程语言 时间:
2015-02-09 12:45:01
阅读次数:
288
决策树看起来挺好的那么它是如何学习出来的?这就需要我们再细细探究一番。通过观察会其实我们会发现这个树学习的关键是找出它的各个节点之间的排列次序,既然所有的叶子节点都是判断的结果,那么哪一个特征需要我们拿来作为根节点,哪一个会成为它子节点......其实决策树的精髓也在于此,只要我们知道怎么去给特征排序,那么问题基本就解决了。...
分类:
其他好文 时间:
2015-02-06 18:57:57
阅读次数:
246
C4.5是机器学习算法中的另一个分类决策树算法,它是基于ID3算法进行改进后的一种重要算法,相比于ID3算法,改进有如下几个要点:用信息增益率来选择属性。ID3选择属性用的是子树的信息增益,这里可以用很多方法来定义信息,ID3使用的是熵(entropy, 熵是一种不纯度度量准则),也就是熵的变化值,...
分类:
其他好文 时间:
2015-02-06 14:52:18
阅读次数:
254
(1)C4.5算法的特点为:输入变量(自变量):为分类型变量或连续型变量。输出变量(模板变量):为分类型变量。连续变量处理:N等分离散化。树分枝类型:多分枝。分裂指标:信息增益比率gain ratio(分裂后的目标变量取值变异较小,纯度高)前剪枝:叶节点数是否小于某一阈值。后剪枝:使用置信度法和减少...
分类:
其他好文 时间:
2015-02-04 14:28:37
阅读次数:
463
'''
Created on Jan 30, 2015
@author: 史帅
'''
from math import log
import operator
import re
def fileToDataSet(fileName):
'''
此方法功能是:从文件中读取样本集数据,样本数据的格式为:数据以空白字符分割,最后一列为类标签
参...
分类:
编程语言 时间:
2015-02-02 18:11:00
阅读次数:
317
朴素贝叶斯(Normal Bayes)适用于离散型特征的分类问题。相比于KNN的纯暴力,决策树的降维以求减少比较次数的优化,NB的优势在于,训练完成之后,分类测试的效率非常高。设样本数为n,分类数据为mKNN没有训练过程,需要分类的时候,即时确定分类。总复杂度O(mn^2)决策树虽然有训练过程,但是...
分类:
其他好文 时间:
2015-02-02 01:54:16
阅读次数:
229
机器学习与智能优化
机器学习与智能优化 之 KNN
OpenCV KNN 之 使用方法
机器学习与智能优化 之 学习有道
机器学习与智能优化 之 线性模型
机器学习与智能计算 之 最小二乘法
机器学习与智能优化 之 规则、决策树和森林
OpenCV 决策树 之 理论准备
OpenCV 决策树 之 使用方法...
分类:
其他好文 时间:
2015-02-01 12:07:32
阅读次数:
178
一、ID3算法简单介绍最早起源于《罗斯昆ID3在悉尼大学。他第一次提出的ID3 1975年在一本书、机器学习、研究所硕士论文。ID3是建立了概念学习系统(CLS)算法。ID3算法是一种基于决策树的算法。决策树由决策结点、分支和叶子组成。决策树中最上面的结点为根节点,每个分支是一个新的决策结点,或者是...
分类:
编程语言 时间:
2015-01-28 19:22:49
阅读次数:
499
摘要:目前经典的统计学分析方法主要有回归分析,Logistic回归,决策树,支持向量机,聚类分析,关联分析,主成分分析,对应分析,因子分析等,那么对于这些经典的分析方法在R中的使用主要有那些程序包及函数呢?1、线性模型~回归分析:【包】:stats 【函数】:lm(formula, data, .....
分类:
其他好文 时间:
2015-01-23 14:41:06
阅读次数:
407