第1章 机器学习基础1)学习分类监督学习——是因为这类算法必须知道预测什么,即目标变量的分类信息。无监督学习——数据没有类别信息,也不会给定目标值。2)开发机器学习应用程序的步骤 收集数据——制作网络爬虫从网站上抽取数据、从RSS反馈或者API中得到信息、设备发送过来的实测数据(风速、血糖等)、公....
分类:
其他好文 时间:
2015-01-05 14:38:09
阅读次数:
170
前言 本文将系统的介绍机器学习中监督学习的回归部分,系统的讲解如何利用回归理论知识来预测出一个分类的连续值。 显然,与监督学习中的分类部分相比,它有很鲜明的特点:输出为连续值,而不仅仅是标称类型的分类结果。基本线性回归解决方案 - 最小二乘法 “给出一堆散点,求出其回归方程。" -> 对于这个...
分类:
其他好文 时间:
2015-01-04 22:58:24
阅读次数:
335
前言 有人认为 AdaBoost 是最好的监督学习的方式。 某种程度上因为它是元算法,也就是说它会是几种分类器的组合。这就好比对于一个问题能够咨询多个 "专家" 的意见了。 组合的方式有多种,可能是不同分类算法的分类器,可能是同一算法在不同设置下的集成,还可以是数据集在不同部分分配给不同分类器...
分类:
编程语言 时间:
2015-01-02 16:01:58
阅读次数:
188
分类:将实例数据划分到合适的分类中。目标变量是离散型。回归:预测数值型数据。目标变量是连续型的数值。监督学习:必须知道预测什么,即目标变量的分类信息。目标变量是机器学习算法的预测结果。开发机器学习应用程序的步骤:1)收集数据;2)准备输入数据;3)分析输入数据;4)训练算法;5)测试算法;6)使用算...
分类:
其他好文 时间:
2014-12-28 20:46:50
阅读次数:
109
斯坦福NG机器学习:K-means笔记 ,无监督学习:经典聚类算法...
分类:
其他好文 时间:
2014-12-25 23:40:41
阅读次数:
203
1、分类:具有类别标签,将数据集根据分到相应的类别 聚类:没有类别标签,将数据集根据他们的相似度分为不同的簇2、监督学习:用于学习的数据集都是输入\输出数据对,学习的任务是找到输入与输出的对应规则 非监督学习:用于学习的数据集只有输入,学习的任务是对于数据进行分析,找到输出3、分类与回归: 分...
分类:
其他好文 时间:
2014-12-24 06:24:16
阅读次数:
110
1Unsupervised Learning1.1k-means clustering algorithm1.1.1算法思想1.1.2k-means的不足之处1.1.3如何选择K值1.1.4Spark MLlib 实现 k-means 算法1.2Mixture of Gaussians and th...
分类:
系统相关 时间:
2014-12-23 10:15:28
阅读次数:
416
监督学习(supervised learning):叫监督学习的原因是因为我们告诉了算法,我们想要预测什么。所谓监督,其实就是我们的意愿是否能直接作用于预测结果。典型代表:分类(classification)和回归(regression)。非监督学习(unsupervised learning):在...
分类:
其他好文 时间:
2014-12-21 00:39:40
阅读次数:
232
1. 算法背景介绍分类树(决策树)是一种十分常用的分类方法。它是一种监管学习,所谓监管学习说白了很简单,就是给定一堆样本,每个样本都有一组属性和一个类别,这些类别是事先确定的,那么通过学习得到一个分类器,这个分类器能够对新出现的对象给出正确的分类。这样的机器学习就被称之为监督学习。C4.5分类树就是...
分类:
编程语言 时间:
2014-12-18 11:53:35
阅读次数:
336
KNN(K Nearest Neighbors,K近邻 )算法是机器学习所有算法中理论最简单,最好理解的一种监督学习算法。KNN是一种基于实例的学习,通过计算新数据与训练数据特征值之间的距离,然后选取K(K>=1)个距离最近的邻居进行分类判断(投票法)或者回归。使用KNN算法时我们必须有接近实际数据的训练样本数据。K-近邻算法必须保存全部数据集,如果训练数据集的很大,必须使用大量的存储空间。此外,由于必须对数据集中的每个数据计算距离值,实际使用时可能非常耗时。k-近邻算法的另一个缺陷是它无法给出任何数据的基...
分类:
编程语言 时间:
2014-12-16 21:04:43
阅读次数:
286