程序主体: 以kNN算法为基础 增加了文件数据导入函数 增加了可视化操作 增加了算法错误率判定 算法改进 由于需要不同,书籍上的代码并不能很好契合程序,故作出一些改进。 文件数据导入函数中classLabelVector.append(int(listFromLine[0])),其中把listFro ...
分类:
其他好文 时间:
2017-11-13 21:36:44
阅读次数:
222
第15章 大数据与MapReduce 大数据 概述 大数据: 收集到的数据已经远远超出了我们的处理能力。 大数据 场景 MapRedece Hadoop 概述 MapRedece 原理 MapRedece 工作原理 主节点控制 MapReduce 的作业流程 MapReduce 的作业可以分成map ...
分类:
其他好文 时间:
2017-11-13 16:40:09
阅读次数:
404
1.numpy中一些函数的用法学习 shape()用法: shape : tuple of ints The elements of the shape tuple give the lengths of the corresponding array dimensions.。 shape返回一个元 ...
分类:
编程语言 时间:
2017-11-12 15:38:20
阅读次数:
263
简单的kNN算法,基本步骤: 1.对数据集进行设定 2.算出测试样本与给定数据集的距离 3.对各个距离进行排序 4.选取k个距离最小(即最接近数据集)的index 5.在k个距离中选取出现频率最多的标签,并把标签赋给测试样本 ps:程序思路简单,由于本人刚开始接触python,下面标出一些函数用作记 ...
分类:
其他好文 时间:
2017-11-12 14:55:18
阅读次数:
168
1 Logistic 回归算法的原理 1.1 需要的数学基础 我在看机器学习实战时对其中的代码非常费解,说好的利用偏导数求最值怎么代码中没有体现啊,就一个简单的式子:θ= θ - α Σ [( hθ(x(i))-y(i) ) ] * xi 。经过查找资料才知道,书中省去了大量的理论推导过程,其中用到 ...
分类:
编程语言 时间:
2017-11-11 18:53:10
阅读次数:
293
theclassifier came back with: 3, the real answer is: 3the total error rate is: 0.0%theclassifier came back with: 2, the real answer is: 2the total err ...
分类:
编程语言 时间:
2017-11-08 22:17:51
阅读次数:
244
图3-1所示的流程图就是一个决策树,正方形代表判断模块(decisionblock),椭圆形代表终止模块(terminating block),表示已经得出结论,可以终止运行。从判断模块引出的左右箭头称作分支(branch),它可以到达另一个判断模块或者终止模块。 图3-1构造了一个假想的邮件分类系 ...
分类:
其他好文 时间:
2017-11-08 00:45:36
阅读次数:
238
1 准备数据:将图像转换为测试向量 这次数据集还是有两种,训练数据集和测试数据集,分别有2000个,900个。 我们将把一个32*32的二进制图像矩阵转换为1 x 1024的向量,这样前两节使用的分类器就可以处理数字图像信息了。 代码: 效果截图: 测试算法 代码: 结果截图: 分别将k改为4,5: ...
分类:
编程语言 时间:
2017-11-07 23:59:00
阅读次数:
412
K近邻算法采用测量不同特征值之间的距离方法进行分类 K近邻算法特点: 优点:精度高、对异常值不敏感、无数据输入假定。 缺点:计算复杂度高、空间复杂度高。 适用数据范围:数值型和标称型。 K近邻算法原理: 存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数 ...
分类:
编程语言 时间:
2017-11-07 23:56:41
阅读次数:
298
案例二.:使用K-近邻算法改进约会网站的配对效果 案例分析: 海伦收集的数据集有三类特征,分别是每年获得的飞行常客里程数、玩视频游戏所耗时间百分比、 每周消费的冰淇淋公升数。我们需要将新数据的每个新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签 ...
分类:
编程语言 时间:
2017-11-07 23:49:10
阅读次数:
311