决策树的优势就在于数据形式非常容易理解,而kNN的最大缺点就是无法给出数据的内在含义。
1:简单概念描述
决策树的类型有很多,有CART、ID3和C4.5等,其中CART是基于基尼不纯度(Gini)的,这里不做详解,而ID3和C4.5都是基于信息熵的,它们两个得到的结果都是一样的,本次定义主要针对ID3算法。下面我们介绍信息熵的定义。
事件ai发生的概率用p(ai...
分类:
其他好文 时间:
2014-07-21 22:21:08
阅读次数:
360
从今天开始学习python,学习的目的:国外的都是以python做编程入门,去英国前要把课补上今天买了一本机器学习实战,是用python写的,虽然大部分代码能够看懂,但是系统的学习还是很有必要知乎上的大牛很推崇python,一定有道理,学学也无妨在知乎上找了一些python入门的经验,这篇比较中意。...
分类:
编程语言 时间:
2014-07-21 09:31:57
阅读次数:
357
1:算法简单描述
给定训练数据样本和标签,对于某测试的一个样本数据,选择距离其最近的k个训练样本,这k个训练样本中所属类别最多的类即为该测试样本的预测标签。简称kNN。通常k是不大于20的整数,这里的距离一般是欧式距离。
2:python代码实现
创建一个kNN.py文件,将核心代码放在里面了。
(1) 创建数据
#创造数据集
def createDataSet():
...
分类:
其他好文 时间:
2014-07-19 23:24:39
阅读次数:
300
1:如何选择合适的算法
2:python简介
(1) python的优势:相对于matlab,matlab单个软件授权就要花费数千美元,也没有一个有影响力的大型开源项目。相对于c++/c/java,完成简单的操作就需要编写大量的代码;而如今我们应该花费更多的时间去处理数据内在的含义,而无需花费太多精力解决计算机如何得到数据结果(python简洁)
(2) python...
分类:
其他好文 时间:
2014-07-18 21:37:59
阅读次数:
218
算法&数学:算法导论详细数学离散数学及其应用(选)线性代数及其应用数论及其应用(选)python:python 基础教程python cookbookpython 网络编程基础python in a nutshell集体智慧编程机器学习实战js:dom编程艺术js cookbooklinuxlinu...
分类:
其他好文 时间:
2014-07-14 08:21:40
阅读次数:
303
参考《机器学习实战》 利用Logistic回归进行分类的主要思想: 根据现有数据对分类边界线建立回归公式,以此进行分类。 分类借助的Sigmoid函数: Sigmoid函数图: Sigmoid函数的作用: 将所有特征都乘上一个回归系数,然后将所有结果值相加,将这个总和代入Sigmoid函数中,进而得...
分类:
其他好文 时间:
2014-07-02 17:30:24
阅读次数:
296
详细要学习的书籍就是《机器学习实战》Machine Learning in Action,Peter HarringtonWindows下要安装3个文件,各自是;1.Python(因为python不是向下兼容的,所以推荐2.7版本号),网址:http://www.python.org2.numpy(...
分类:
编程语言 时间:
2014-07-01 17:52:50
阅读次数:
441
今天按照《机器学习实战》学习k-邻近算法,输入KNN.classify0([0,0],group,labels,3)的时候总是报如下的错误:Traceback(mostrecentcalllast):File"<pyshell#75>",line1,in<module>KNN.classify0([0,0],group,labels,3)File"KNN.py",line16,inclassify0diffMat=til..
分类:
其他好文 时间:
2014-06-17 17:05:39
阅读次数:
235
什么是回归?假设现在有些数据点,我用直线对这些点进行拟合(该线叫做最佳拟合直线),这个拟合的过程就叫做回归。Logistic回归?这里,Logistic回归进行分类的主要思想:根据现有数据对分类的边界线建立回归公式,以此边界线进行分类。这里的回归指的是最佳拟合,就是要找到边界线的回归公式的最佳拟合的...
分类:
其他好文 时间:
2014-06-17 12:52:30
阅读次数:
648
参考《机器学习实战》 朴素(naive)贝叶斯遵循以下原则: 设特征为x,y;类别为c。
在已知x、y特征的情况下,判断其类为ci的概率为: 自然, 我们选取概率较大的为对应的分类结果:
朴素贝叶斯就是根据这一原则进行分类器设计的。书中以垃圾邮件分类为例做了详述。 垃圾邮件分类的基本过程: 数据集:...
分类:
其他好文 时间:
2014-06-06 23:35:03
阅读次数:
526