概率是许多机器学习算法的基础,在前面生成决策树的过程中使用了一小部分关于概率的知识,即统计特征在数据集中取某个特定值的次数,然后除以数据集的实例总数,得到特征取该值的概率。...
分类:
其他好文 时间:
2015-09-12 00:52:33
阅读次数:
222
使用后处理来提高聚类性能 利用误差来评价聚类的质量 一种衡量的指标是SSE:误差平方和,该方法更为重视远离簇中心的点。 一种方法是将具有最大SSE值的簇划分成两个簇。将该簇内重新进行分簇。 如果要保持簇的数目不变,可以再讲两个粗合并。合并最小的质心或者合并两个使得SSE枕骨最小的质心。 二分K-均值...
分类:
其他好文 时间:
2015-09-09 17:05:07
阅读次数:
135
使用后处理来提高聚类性能 利用误差来评价聚类的质量 一种衡量的指标是SSE:误差平方和,该方法更为重视远离簇中心的点。 一种方法是将具有最大SSE值的簇划分成两个簇。将该簇内重新进行分簇。 如果要保持簇的数目不变,可以再讲两个粗合并。合并最小的质心或者合并两个使得SSE枕骨最小的质心。 二分K-均值...
分类:
其他好文 时间:
2015-09-09 16:46:07
阅读次数:
163
上一节实现了决策树,但只是使用包含树结构信息的嵌套字典来实现,其表示形式较难理解,显然,绘制直观的二叉树图是十分必要的。Python没有提供自带的绘制树工具,需要自己编写函数,结合Matplotlib库创建自己的树形图。第二部分,使用决策树预测患者佩戴隐形眼镜的类型。...
分类:
其他好文 时间:
2015-09-06 18:22:18
阅读次数:
368
决策树是个极其易懂的算法,也是最常用的数据挖掘算法,决策树允许机器根据数据集创造规则,其实这就是机器学习的过程。专家系统中经常会使用到决策树及其变种,而且决策树给出的结果往往可以匹敌在当前领域具有几十年工作经验的专家。
优点:决策树的计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据;
缺点:可能会产生过度匹配的问题;
适用数据类型:数值型和标称型。...
分类:
其他好文 时间:
2015-09-03 00:46:44
阅读次数:
296
推荐书:数据挖掘:实用机器学习数据挖掘:概念与技术韩家伟著;细读+后面的引用文章;机器学习实战(python);机器学习实用案例解析(R语言);神经网络与机器学习simonhaykin著;难BuildingmLsystemwithpython(机器学习系统设计);R语言官方网站:www.r-project.orgWEKA:官..
分类:
其他好文 时间:
2015-08-31 17:32:05
阅读次数:
139
机器学习:k-近邻(kNN)算法的基本原理与Python实现。...
分类:
编程语言 时间:
2015-08-30 01:02:31
阅读次数:
172
该节主要是把《机器学习实战》书上第三章关于决策树的相关代码照样子实现了一遍。对其中一些内容作了些补充,对比ID3与C45区别,同时下载了一个大样本集实验决策树的准确率。首先,对于决策树的原理,很多很好的博客值得一看:从决策树学习谈到贝叶斯分类算法、EM、HMM决策树算法总结这两个已经详解了关于决策树的所有,慢慢品读吧。下面是书上外加添加的部分程序,首先是tree.py里面的程序:import ope...
分类:
编程语言 时间:
2015-07-31 22:01:49
阅读次数:
282
《机器学习实战》之K-均值聚类算法的python实现最近的项目是关于“基于数据挖掘的电路故障分析”,项目基本上都是师兄们在做,我只是在研究关于项目中用到的如下几种算法:二分均值聚类、最近邻分类、基于规则的分类器以及支持向量机。基于项目的保密性(其实也没有什么保密的,但是怕以后老板看到我写的这篇博文,所以,你懂的),这里就不介绍“基于数据挖掘的电路故障分析”的思路了。废话不多说了,开始正题哈。...
分类:
编程语言 时间:
2015-07-28 23:20:37
阅读次数:
646
《机器学习实战》之二分K-均值聚类算法的python实现上面博文介绍了K-均值聚类算法及其用python实现,上篇博文中的两张截图,我们可以看到,由于K-均值聚类算法中由于初始质心的选取,会造成聚类的局部最优,并不是全局最优,因此,会造成聚类的效果并不理想,为克服K-均值算法收敛于局部最小值的问题,就有了二分K-均值算法。二分K-均值聚类算法二分K均值算法是基本K均值算法的直接扩充,其基本思想是:为...
分类:
编程语言 时间:
2015-07-28 23:16:26
阅读次数:
328