摘要: 本文主要是评估多种监督机器学习算法的有效性,这些算法用于判断一个错误报告是否是reopened的,算法如下: 7种监督学习算法:kNN,SVM, SimpleLogistic,Bayesian Network, Decision Table, CARTand LWL; 3种集成学习算法: A...
分类:
其他好文 时间:
2015-04-20 10:58:45
阅读次数:
160
一、改进约会网站的配对效果
想要预测的目标变量:不喜欢的人、魅力一般的人、极具魅力的人
样本特征:每年获得的飞行常客里程数、玩视频游戏所耗时间百分比、每周消费的冰淇淋公升数
约会数据信息存放在文本文件datingTestSet.txt中,每个样本数据占据一行,共有1000行。
实现步骤
1、将文本文件中的数据进行解析
##########...
分类:
编程语言 时间:
2015-04-17 14:04:25
阅读次数:
239
一、基本原理
存在一个样本数据集合(也称训练样本集),并且样本集中每个数据都存在标签。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签。
我们一般只选择样本集中前k(k通常是不大于20的整数)个最相似的数据,最后选择k个最相似数据中出现次数最多的分类,作为新数据的分类。
二、算法流程...
分类:
编程语言 时间:
2015-04-17 11:44:08
阅读次数:
162
介绍机器学习KNN算法,提供Matlab,Python实现以及实际应用例子...
分类:
编程语言 时间:
2015-04-14 14:41:04
阅读次数:
629
简述算法上一章的kNN更像是应用统计知识来进行科学的预测,它可以完成许多分类任务。但是最大的缺点就是无法给出数据的内在含义,而决策树算法数据形式非常便于理解。决策树的结果经常会应用到专家系统当中。构建一棵决策树的流程:检测数据集中每一个子祥的属性是否属于同一类
if so return 类标签;
else
寻找划分数据集的最好特征
划分数据集...
分类:
其他好文 时间:
2015-04-13 09:47:03
阅读次数:
197
这段时间工作太忙,很久没学习了。这两天,工作之余,偶尔在家翻翻书,权且当做休息了。
我一直是c/c++的忠实用户,尤其是c的粉丝——概念简洁、运行高效——计算机专业的人,不用c语言,不了解程序底层的运行机制和过程,那和那些外专业的只会调用接口、函数的同学有什么区别呢?不过,最近一年还是慢慢去了解、尝试python了。原因很简单,开发成本太低了。c/c++就像复杂的吸尘器、洗碗机,优点是高效,缺点...
分类:
编程语言 时间:
2015-04-11 13:21:57
阅读次数:
197
KNN的是“k Nearest Neighbors”的简称,中文就是“最近邻分类器”。基本思路就是,对于未知样本,计算该样本和训练集合中每一个样本之间的距离,选择距离最近的k个样本,用这k个样本所对应的类别结果进行投票,最终多数票的类别就是该未知样本的分类结果。选择什么样的度量来衡量样本之间的距离是关键。
一、从文本中读取样本的特征和分类结果。
'''
kNN: k Nearest N...
分类:
编程语言 时间:
2015-04-11 13:19:10
阅读次数:
214
样本我就用的《machine learning in action》中提供的数据样例,据说是婚恋网站上各个候选人的特征,以及当前人对这些人的喜欢程度。一共1k条数据,前900条作为训练样本,后100条作为测试样本。
数据格式如下:
46893 3.562976 0.445386 didntLike
8178 3.230482 1.331698 smallDoses
55783 3.612548...
分类:
编程语言 时间:
2015-04-11 13:17:24
阅读次数:
159
继续之前的写。
三、对单个样本进行分类。
'''
function: classify the input sample by voting from its K nearest neighbor
input:
1. the input feature vector
2. the feature matrix
3. the label list
4. the value of k
re...
分类:
编程语言 时间:
2015-04-11 13:17:22
阅读次数:
237
概述K最近邻(k-Nearest Neighbor,KNN)分类算法可以说是最简单的机器学习算法了。它采用测量不同特征值之间的距离方法进行分类。它的思想很简单:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。算法总结k-邻近算法是分类...
分类:
其他好文 时间:
2015-04-11 01:11:04
阅读次数:
209