问题由来在很多机器学习任务中,特征并不总是连续值,而有可能是分类值。例如,考虑一下的三个特征:["male","female"]["from
Europe","from US","from Asia"]["uses Firefox","uses Chrome","uses
Safari","uses...
分类:
其他好文 时间:
2014-06-04 17:03:02
阅读次数:
344
参考:《机器学习实战》 优点:计算复杂度不高,
输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特 征数据。 缺点:可能会产生过度匹配问题。 适用数据类型:数值型和标称型。
创建分支的伪代码(createBranch): 图1 1、信息...
分类:
其他好文 时间:
2014-05-29 16:59:42
阅读次数:
401
//====================================================决策树的构造:构造决策树时,需要解决的第一个问题是,当前数据集上那个特征在划分数据是起决定性作用。为了找到决定性特征,我们必须使用某种度量来评估每个特征。完成评估之后,找到决定性特征,使用该特...
分类:
其他好文 时间:
2014-05-21 18:05:53
阅读次数:
343
k邻近算法采用测量不同特征值之间的距离方法进行分类。优点:精度高、对异常值不敏感、没有数据输入假定;缺点:计算复杂度高、空间复杂度高(占内存);使用数据范围:数值型和标称型。
k-邻近算法的工作原理是:存在一个训练样本集,并且每个数据都存在标签,即我们知道每个数据都对应的哪个分类。输入一个没有标签的新数据,将新数据的每个特征和样本集中的所有数据进行笔记哦啊,提取出样本集中特征最相似(邻近)的分类...
分类:
编程语言 时间:
2014-05-20 16:54:05
阅读次数:
534
具体要学习的书籍就是《机器学习实战》Machine Learning in Action,Peter Harrington
Windows下要安装3个文件,分别是;
1.Python(由于python不是向下兼容的,所以推荐2.7版本),网址:http://www.python.org
2.numpy(python的科学计算包),网址:http://sourceforge.net/proje...
分类:
编程语言 时间:
2014-05-18 09:24:06
阅读次数:
303
1.机器学习的真实含义是利用数据来彰显数据背后的真实含义。
2.机器学习的一般用例:人脸识别、手写数字识别、垃圾邮件过滤、产品推荐等等。
3.机器学习的主要任务是分类,即将实例数据划分到合适的分类中。另一项任务是回归,主要用于预测数值型数据。分类和回归属于监督学习,之所以称为监督学习,是因为这类算法必须知道预测什么,即目标的分类信息。另一种机器学习方式是无监督学习,此时数据没有类别信息,也没有...
分类:
编程语言 时间:
2014-05-18 08:05:07
阅读次数:
320
k-近邻算法原理:存在一个样本的数据集合,也叫训练的样本集,样本集中每个数据都有标签,算法分类时,输入没有分类的新数据,将新数据的每个特征与样本集中每个数据对应的特征进行比较,然后样本集可以计算得到与新数据的相似度,然后取前k(通常不大于20)大相似度所对应的类标签,然后将新数据标识为k个中类标签最...
分类:
其他好文 时间:
2014-05-15 07:42:07
阅读次数:
401
属于离散监督,是一个简单的分类算法工作原理:存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签。k-...
分类:
其他好文 时间:
2014-05-04 20:00:18
阅读次数:
388
我买的书或借的 没看的计算机方面: 深入浅出MFC vc++深入详解 算法入门 算法入门训练指南
大话数据结构 C++ 第6版本图像处理与机器视觉: 机器视觉 张广军 数字图像处理疑难解析 图像处理与计算机视觉算法应用 opencv2 图像配准技术模式识别:
机器学习实战 模式分类 神经网络设计 斯...
分类:
其他好文 时间:
2014-05-02 20:00:42
阅读次数:
323