机器学习实战ByMatlab(1):KNN算法
KNN 算法其实简单的说就是“物以类聚”,也就是将新的没有被分类的点分类为周围的点中大多数属于的类。它采用测量不同特征值之间的距离方法进行分类,思想很简单:如果一个样本的特征空间中最为临近(欧式距离进行判断)的K个点大都属于某一个类,那么该样本就属于这个类。这就是物以类聚的思想。
当然,实际中,不同的K取值会影响到分类效果,并且在K个临近点的...
分类:
其他好文 时间:
2015-06-01 09:41:00
阅读次数:
569
学习 machine learning 的最低要求是什么? 我发觉要求可以很低,甚至初中程度已经可以。 首先要学习一点 Python 编程,譬如这两本小孩子用的书:【1】【2】便可。 数学方面,只需要知道「两点间距离」的公式(中学的座标几何会读到)。这本书第二章介绍 kNN 算法,包括 Pytho....
分类:
编程语言 时间:
2015-05-17 21:27:52
阅读次数:
260
# 使用好任何机器学习算法的前提是选好Features
from numpy import *
import operator
from os import listdir
def classify0(inX, dataSet, labels, k):
dataSetSize = dataSet.shape[0]
diffMat = tile(inX, (dat...
分类:
编程语言 时间:
2015-05-10 09:56:10
阅读次数:
202
一、改进约会网站的配对效果
想要预测的目标变量:不喜欢的人、魅力一般的人、极具魅力的人
样本特征:每年获得的飞行常客里程数、玩视频游戏所耗时间百分比、每周消费的冰淇淋公升数
约会数据信息存放在文本文件datingTestSet.txt中,每个样本数据占据一行,共有1000行。
实现步骤
1、将文本文件中的数据进行解析
##########...
分类:
编程语言 时间:
2015-04-17 14:04:25
阅读次数:
239
一、基本原理
存在一个样本数据集合(也称训练样本集),并且样本集中每个数据都存在标签。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签。
我们一般只选择样本集中前k(k通常是不大于20的整数)个最相似的数据,最后选择k个最相似数据中出现次数最多的分类,作为新数据的分类。
二、算法流程...
分类:
编程语言 时间:
2015-04-17 11:44:08
阅读次数:
162
介绍机器学习KNN算法,提供Matlab,Python实现以及实际应用例子...
分类:
编程语言 时间:
2015-04-14 14:41:04
阅读次数:
629
k临近算法(kNN)采用测量不同特征值之间的距离方法进行分类,也是一种非常直观的方法。本文主要记录了使用kNN算法改进约会网站的例子。任务一:分类算法classify0
就是使用距离公式计算特征值之间的距离,选择最邻近的k个点,通过统计这k个点的结果来得出样本的预测值。
tile函数用法在这里
argsort函数在这里def classify0(inX,dataset,labels,k):...
分类:
其他好文 时间:
2015-04-10 22:36:02
阅读次数:
233
那几年,我学习机器学习的主要内容:
1.机器学习基本导论,机器学习入门了解;
2.线性回归与Logistic。xx业绩预测系统,智能交互统计系统等;
3.岭回归,Lasso,变量选择技术。维度的技巧等技术;
4.降维技术。xx指标设计,具体规范;
5.线性分类器,Knn算法,朴素贝叶斯分类器,文本挖掘。XX智能垃圾消息,垃圾邮件判断,评论智能分析,智能监控统计预警系统呀。
6.决策树,组合提升算...
分类:
其他好文 时间:
2015-03-20 14:27:55
阅读次数:
168
决策树、knn算法都是结果确定的分类算法,数据示实例最终被明确的划分到某个分类中贝叶斯:不能完全确定数据实例应该划分到某个类,湖综合只能给出数据实例属于给定分类的概率 *引入先验概率与逻辑推理来处理不确定命题 *(扩展命题),另一种叫频数概率,从数据本身出发得到结论,不考了逻辑推理及先验知识。朴.....
分类:
其他好文 时间:
2015-03-19 06:12:50
阅读次数:
155