码迷,mamicode.com
首页 > 其他好文 > 详细

机器学习实战

时间:2014-09-01 12:37:53      阅读:190      评论:0      收藏:0      [点我收藏+]

标签:机器学习 分类

简述机器学习:

用计算机来彰显数据背后的意义,这个才是机器学习的真正含义,简而言之机器学习就是把无序的数据转换成有用的信息。与此同时,机器学习也需要一些统计学的知识,除了人类的行为之外,现实世界还存在许多的例子是我们无法运用数学模型进行描述的,这时我们就需要统计学工具。在这个数据膨胀的时代,需要的是在数据中不会迷失,穿越数据的雾霾,从中抽取有用的信息,机器学习可以完成。

机器学习术语:

一个简单的例子,鸟类专家系统:(根据鸟的特征,来判定这鸟属于什么类别)

标号 体重(克) 翼展(厘米) 脚蹼 颜色 种属
1 1000 125 No 棕色 红尾鸠
2 2000 200 No 灰色 鹭鹰
3 3000 220 No 灰色 鹭鹰
4 4100 136 Yes 黑色 千鸟
5 3 11 No 绿色 蜂鸟
6 570 75 No 黑色 木鸟

此实例引出,机器学习的一个主要任务:分类
当决定使用什么机器学习算法进行分类,首先需要的是学习如何分类。通常需要为算法输入大量的已知分类数据作为算法的输入集合,如上表,存在着6个训练样本,每个样本有4个特征值,一个目标变量。最终的目标变量就是预测的结果。在此过程中,训练样本必须明确知道目标变量的值,这样机器学习算法才可以发现特征与目标变量之间的关系。而最终目标变量也称为类别,假定分类只存在有限个数的类别。为了验证机器学习算法的有效性,通常使用两套数据集,训练样本和测试数据。当机器学习算法运行的时候输入训练样本,模拟分类系统,而后输入测试数据,但此时的测试数据并不带有目标变量,由程序自己决定样本的类别。实验比较,程序得到的类别和已知的类别的差别,可以得出算法的准确度。

分类主要任务:将示例数据划分到所属的合适的分类中。
回归主要任务:主要用于预测数值型数据。
分类和回归都属于监督学习(此算法必须要知道预测什么,或者知道已定的类别信息)。

于此相对应的是:无监督学习(数据没有类别信息,也不给出目标变量)-----》聚类

如何选择算法:

首先很据使用机器学习的目的(是否预测目标的值),选择监督学习还是无监督学习,若是选定了监督学习,之后需要确定目标变量类型,若目标类型是离散的,是/否,1/2/3 等选择分类算法,若目标变量是连续的数值(0~10),则选用回归算法。
以上只能是大致的分算法方向,并不会具体到使用什么算法将会达到最优的目的,然而最好的算法就是反复试错的迭代过程。

应用机器学习的步骤:

(1)收集数据。
(2)准备输入数据
(3)分析输入数据
(4)训练算法
(5)测试算法
(6)使用算法

使用工具:

在实现算法的过程中,可以使用MATALB或者是Octave,也可以使用python进行实现,使用python的好处就是语法清晰,易于文本操作,但是同时也存在着不足之处,性能问题,在python构造机器学习应用时,经常会使用NumPy函数库,主要进行矩阵的运算,在python shell下:
>>>from numpy import * 即可使用NumPy函数库的函数。

分类小结:

分类必须了解到数据实例,每个数据实例由多个特征值组成,分类则是机器学习的基本任务,分析未分类的数据,进行分类处理,为了构建分类器必须先输入大量的分类数据,即训练样本集。在根据测试数据,讲数据输入到分类器之中,进行分类处理,最后将程序得出分类结果和已知的目标变量进行比较,得出机器学习算法的有效性。

机器学习实战

标签:机器学习 分类

原文地址:http://blog.csdn.net/xd_122/article/details/38976339

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!