属原创文章,欢迎转载,但请注明出处:http://www.cnblogs.com/hemiy/p/6155425.html 谢谢! 代码及数据-->https://github.com/Wellat/MLaction 1 算法概述 1.1 算法特点 简单地说,k-近邻算法采用测量不同特征值之间的距离 ...
分类:
编程语言 时间:
2016-12-11 18:39:22
阅读次数:
256
今天看到这篇文章里面提到如何选择模型,觉得非常好,单独写在这里。 更多的机器学习实战可以看这篇文章:http://www.cnblogs.com/charlesblc/p/6159187.html 另外关于机器学习与数据挖掘的区别, 参考这篇文章:https://www.zhihu.com/ques ...
分类:
其他好文 时间:
2016-12-11 14:55:45
阅读次数:
197
理论原理部分可以看这一篇:http://www.cnblogs.com/charlesblc/p/6109551.html 这里是实战部分。参考了 http://www.cnblogs.com/shishanyuan/p/4747778.html 采用了三个案例,分别对应聚类、回归和协同过滤的算法。 ...
分类:
其他好文 时间:
2016-12-11 12:13:35
阅读次数:
170
最近在学习这本书,按照书上的实例编写了knn.py的文件,使用canopy进行编辑,用shell交互时发现运行时报错: 运行的代码如下: 然后我在canopy中重新关闭程序,又打开后,就可以运行成功了 还有一点是文件名不识别大小写 需要注意 ...
分类:
其他好文 时间:
2016-12-10 15:59:01
阅读次数:
333
如果一点基础没有最好先拿起一本教材开始学,《机器学习实战》还不错,P93,书上有python源码和练习数据,非常适合新手。 k均值聚类 簇 相似 伪代码 (随机)创建K个点作为起始质心 当任意一个点的簇分配结果发生变化时: 对数据集中的每个点: 对每个质心: 计算质心到数据点之间的距离 将数据点分配... ...
分类:
其他好文 时间:
2016-12-09 19:37:44
阅读次数:
151
原理(ID3): 依次选定每个特征,计算信息增益(基本信息熵-当前信息熵),选择信息增益最大的一个作为最佳特征; 以该特征作为树的根节点,以该最佳特征的每一个值作为分支,建立子树; 重复上述过程,直到:1) 所有类别一致 2) 特征用尽 优点: 简单容易理解; 可处理有缺失值的特征、非数值型数据; ...
分类:
其他好文 时间:
2016-12-04 23:13:31
阅读次数:
207
原理: (1) 输入点A,输入已知分类的数据集data (2) 求A与数据集中每个点的距离,归一化,并排序,选择距离最近的前K个点 (3) K个点进行投票,票数最多的分类即为所求 优点: 简单,可用于非线性分类 缺点: 当样本不均衡时影响投票结果; 分类结果受K值影响; 时空复杂度高:需要保存全部数 ...
分类:
编程语言 时间:
2016-12-03 21:12:34
阅读次数:
208
$k$-近邻算法(kNN)的工作原理:存在一个训练样本集,样本集中的每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对于关系。输入没有标签的新数据后,将新数据的每一个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签。一般来说,我们只选择样本数据集 ...
分类:
其他好文 时间:
2016-11-28 07:40:29
阅读次数:
305
回顾我大学自己课外读过的一些书 学习书籍(机器学习与自然语言处理之路): 《机器学习实战》 《机器学习》 (南大周志华博士) 《统计学习方法》 (李航博士) 《数学之美》 (吴军博士) 《python数据可视化》 《利用python进行数据分析》 课外书: 《追风筝的人》 《麦田的守望者》 《丰乳肥 ...
分类:
其他好文 时间:
2016-11-20 18:59:10
阅读次数:
169
本人小白,第一次发布博客,大神绕路,不喜勿喷。 最近公司要求一些机器学习的内容,所以在看一些机器学习有关的资料,最近看的书名字叫做 机器学习实战。这是一本不错的书籍,很值得一读。 好,不说废话,进入我们今天的正题。 k-均值算法(k-means算法) 1.k-means算法是一种聚类算法。 何为聚类 ...
分类:
编程语言 时间:
2016-11-17 20:28:49
阅读次数:
262