本人看过的关联规则博文,很少有清晰的把关联规则的算法说很明白的,希望读者读完本文可以有新的收获。本文是在默认读者有相关机器学习算法基础的,总结和提升对关联规则代码实现的理解,并介绍相关案例。语言:python 一 引言 关联规则起初是在购物篮分析中发现的,沃尔玛超市在美国某地区啤酒和尿布放在一起卖, ...
分类:
其他好文 时间:
2016-06-24 22:14:04
阅读次数:
479
机器学习
这是记录自学的过程,目前的理论基础就是:大学高等数学+线性代数+概率论。编程基础:C/C++,python在观看机器学习实战这本书,慢慢介入。相信有读过以上三门课的人完全可以开始自学机器学习了,当然我上面这三门课学的一般,所以你只知道有这么一个公式或名词,不懂可以百度之深究之。在写这篇文章的时候作者机器学习还没学完,故文章中的错误还请不吝指出。再次声明,系列文章只是分享学习过程,学习点...
分类:
其他好文 时间:
2016-06-20 07:07:15
阅读次数:
304
根据《机器学习实战》一书第十章学习k均值聚类算法和二分k均值聚类算法,自己把代码边敲边理解了一下,修正了一些原书中代码的细微差错。目前代码有时会出现如下3种报错信息,这有待继续探究和完善。
报错信息:
Warning (from warnings module):
File "F:\Python2.7.6\lib\site-packages\numpy\core\_methods.py",...
分类:
编程语言 时间:
2016-06-12 01:54:08
阅读次数:
452
决策树从数据集合中提取出一系列的规则,这些规则可以用流程图表示,其数据形式非常容易理解;专家系统中就经常使用决策树。 1、决策树的构造:①采用ID3算法(最高信息增益)划分数据集;②递归创建决策树。 2、使用matplotlib的注解功能,可以将存储的树结构转化为容易理解的图形。 3、使用pytho ...
分类:
其他好文 时间:
2016-06-10 19:06:07
阅读次数:
178
《机器学习实战》第三章 决策树 #1 trees.py 计算给定数据集的香农熵 #2 trees.py 划分数据集 待划分的数据集、划分数据集的待征、需要返回的特征的值 #3 trees.py 选择最好的数据集划分方式 #4 trees.py 创建树的函数代码 两个参数:数据集、标签列表 ...
分类:
编程语言 时间:
2016-06-10 14:58:26
阅读次数:
338
返回目录
上一篇:决策树
1. 简单理论介绍
1.1 贝叶斯定理
了解贝叶斯定理之前,需要先了解下条件概率。P(A|B)表示在事件B已经发生的条件下事件A发生的概率:
P(A|B)=P(AB) P(B)daf
afdfd
假如我们已经知道了P(A|B),但是现在我们想要求P(B|A),也就是在事件A发生的条件下事件B发生的概率,这时...
分类:
其他好文 时间:
2016-05-18 19:02:25
阅读次数:
137
返回目录
上一篇:k-近邻算法
1. 简单理论介绍
决策树的类型有很多,有CART、ID3和C4.5等,其中CART是基于基尼不纯度(Gini)的,这里不做详解,而ID3和C4.5都是基于信息熵的,它们两个得到的结果都是一样的,本次定义主要针对ID3算法。下面我们介绍信息熵的定义。
1.1 熵
设D为用类别对训练集进行的划分,则D的熵(entropy)表示为:...
分类:
其他好文 时间:
2016-05-16 09:33:49
阅读次数:
284
“贝尔实验室和MIT的很多人将香农和爱因斯坦相提并论,而其他人则认为这种对比是不公平的 对香农是不公平的”。 这是我从《机器学习实战》这本书上摘抄的一句话,对香农、爱因斯坦,无心评论,只能仰望。 读吴军博士的《硅谷之谜》,觉得先有香农,后有信息论,再有今天的信息时代。 混乱的信息是没有价值的,轻而易 ...
分类:
其他好文 时间:
2016-05-13 08:36:09
阅读次数:
208
=====================================================================
《机器学习实战》系列博客是博主阅读《机器学习实战》这本书的笔记也包含一些其他python实现的机器学习算法
github 源码同步:https://github.com/Thinkgamer/Machine-Learning-With-Py...
分类:
编程语言 时间:
2016-05-12 12:07:13
阅读次数:
497
P.S. SVM比较复杂,代码没有研究清楚,进一步学习其他知识后再来补充。以下仅罗列了最核心的知识,来自《机器学习实战》的学习摘要。优点:泛化错误率低,计算开销不大,结果易解释。缺点:对参数调节和核函数的选择敏感,原始分类器不加修改仅适用于处理二类问题。适用数据类型:数值型和标称型数据。线性可分数据... ...
分类:
系统相关 时间:
2016-05-11 10:53:20
阅读次数:
705