标签:最优 世纪 模拟 泛化 ges 基础 总结 包括 大数据时代
一、修改需求分析
1.未分析清楚研究背景以及现阶段研究中存在的问题。
青海大学植物资源网虽然收录了青海境内的主要资源植物的图片资料以及视频资料,但是现阶段的研究中采集到的图片里只添加了名称属性,并未添加花型花色等属性,但是大多数的植物爱好者以及学习者对植物的种名、署名等并不熟悉。所以在不知道花名的情况下按照花型花色查找显得十分的必要。花卉分类系统也就应运而生。
2.未对分类器进行筛选
分类器是一种基于机器学习算法对样本分类方法的统称,分类选择的是否合适,对于计算结果有着很大的影响,所以应该选择一个合适分类器,但是需求分析中没有分析清楚,现分析如下。
(1)贝叶斯算法
贝叶斯算法是在概率以及统计的理论基础上建立的一种不确定的推理方法,这种方法有坚实的数学基础作为铺垫,主要分为朴素贝叶斯以及贝叶斯网络。朴素贝叶斯是比较常见的方法,可以用无向环的方式来描述,很形象地表示了属性集合之间的依赖关系,算法简单移动并且效率快。基本原理是属性之间的前提条件彼此独立互相不影响。但是有很多的限制条件,所以在现实中很少使用。优点是具有极强的学习推理能力,但是缺点是对发生的频率较低的事件预测的效果往往没有那么好。
(2)神经网络算法
神经网络借鉴生物神经系统的模式,依据生物神经系统的改造和功能构建的一种能够让机器模拟人脑的算法。该算法包含了多个节点,其中在输入与输出节点之间还有节点,这些中间节点的存在使得输入更加高效。目前神经网络模型很多,其中最经典的就是BP神经网络模型,它的优点是分类结果精度很好,容错能力强,有很强的学习能力,对于非线性的分类效果较好。缺点是需要大量的参数,而且对整个机器学习的过程没法检测,以至于对于结果没有一个合理的解释。
(3)决策树
决策树是一种树形结构,内部的每一个节点都表示在一个属性上的测试,该节点的每一个后续分值与该属性的可能值相对应。每一个叶子结点都表示一个类或类的分布。决策树一般是分两步构造分类器:数的生成与树的剪枝。决策树原理比较简单,对数据要求低。对数据的属性不做要求,但是容易出现不对称的结果,对于丢失的数据很难作出决策,对数据特征之间的关系也容易被忽略。
(4)支持向量机
支持向量机是基于统计学习理论的一种机器学习算法,夜视图像分类领域的一个重点算法。主要是解决一些分类的问题,主要思想是:寻找一个分类平面,将需要分类的目标分开,并且使得这个分类间隔最大,根据最优解理论,SVM算法去计算的局部最优解也就是整体最优解。支持向量机的优点是在少量样本的的情况下,SVM依然可以发挥较好的分类效果;对于高维空间问题和非线性问题,也有较好地解决方案。缺点是对于数据的缺失敏感度较高,对于非线性问题也没有统一的解决标准。不同的问题可能需要花费大量的时间来研究解决方案。
因为本研究基于少量的样本,故选择SVM可能较于其他算法有着较好的效果。
3.设计流程图
本研究一般从少量的花卉样本入门,研究花卉的分类技术,建立花卉分类训练模型。
二、技术路线改进
1.模式识别
模式识别于 20 世纪 60 年代发展成为一门专门的学科,是属于机器学习中的一员,主要以应用为基础,研究对象的分类问题,故模式识别也叫做模式分类。在当前互联网以及大数据云计算飞速发展的时代背景下,模式识别不仅在科学研究上具有重要意义,也在实际的生产生活中起着很大的作用。目前,模式识别在很多领域都有着实际的应用,包括计算机视觉领域、互联网搜索引擎领域、语言识别和生物特征识别领域等。同时,随着大数据时代的来临,模式识别将会被掀起新一期的浪潮。
模式描述的是同一类问题的解决方案的方法理论,在下次遇见同样类型的问题时,不再需要去做重复的工作,而可以直接使用那些已经存在的解决方案。从这一定义上来说,模式并不表示真实世界中的事物,而是表示通过事物得到的信息。这些信息通常包含了时间或者空间分布的信息。
模式识别是指对表征事物或现象的各种形式(包括数值、文字和逻辑关系)的信息进行处理和分析,以对事物或现象进行描述、辨认、分类和解释的过程。模式的分类主要包括有监督的分类和无监督的分类。其主要区别在于实验样本所属的类别是否预先已知,有监督的分类是指实验样本已知的情况,通过已知的样本属性进行建模,而无监督的分类与之相反,对样本类别是预先不可知的。两种分类模式各有其优缺点,适用的范围也各不相同。
2.SVM分类器原理
支持向量机是一种分类算法,通过寻求结构化风险最小,即实现经验风险和置信风险最小来提高机器学习的泛化能力,从而达到在样本量较少的情况下,获得良好的统计规律的目的。支持向量机的模型是一个线性分类器,该分类器将特征空间的间隔划分到最大。
线性可分情况
线性可分的情况是一种最简单有效的分类情况,线性可分可见下图所示,表示在二维空间中线性可分的情况,正方形和圆形分别代表两个需要区分的类,中间的直线即表示这两类的最优分类线,该分类线将这两类最大限度的分开。同理,对于在多位空间中的分类,将分类线看作一个分类超平面,该分类超平面可以准确地将多维空间中的类分开,且分开距离最大。
三、对于SVM算法的改进
SVM 通常是用于解决二分类问题的,一般只能回答某一类是正类还是负类。但实际的问题中,我们需要解决的往往是多分类的问题,例如人脸识别、数字识别、车牌识别等都是多类问题。这里主要讨论了将二分类的 SVM 用于解决多分类问题的方法。目前主要有两种思路:
(1)改变 SVM 算法属于二分类的本质,从根本上解决 SVM 的多分类问题。即是将目标函数转换为同时求解多个目标的函数的问题,这样求解得到的多个解就是所需的多个分类平面。如下图所示:
本图展示了从本质上解决 SVM 的多分类问题的效果,图中的多个分类线将空间划分问很多个封闭的小平面,对应的各个小封闭区域即是多分类的结果。
(2)
多分类问题转化为对二分类问题的迭代。第一种方法直接改变目标函数一次性求解多个分类解的方法,其计算量很大,并且对于不同的物体,其求解目标的个数也不相同。这就使得第一种思想来解决 SVM 多分类的问题很难符合实际的需求。故常常采用第二种思想,即是采用迭代的思想来解决 SVM 的多分类问题。
DAG 方法
该方法首先将任意两个类别组合到一块构成多个二分类问题的子分类器,将这些子分类器以有向无环图的形式呈现,如下图所示,当在对样本进行训练时,从根节点出发,进行遍历训练。采用这种分类方式,大大减少了重复操作,提高了分类速度。但同时用这样的方式,一旦某一个节点分类结果错误就会造成后续的分类结果全部错误,即是每一个节点的操作的失误都可能会使后面的操作白费。
四、总结
因为本研究基于SVM算法,故需求主要在于对SVM算法进行分析与改进。本次实验是受启于正在建立中的青海大学植物资源网,旨在为青海大学植物资源网里的上千种青藏高原野生花卉的计算机分类提供实验依据。由于植物资源网尚未建立完成,并且青藏高原野生花卉的收集也尚未完成,因此本文主要是在实验环境下研究了一般的花卉分类方法,建立了花卉分类训练模型。基于计算机的花卉分类计算与传统的人工识别相比,其速度更快、效率更高,并且减少了人员消耗,在植物分类领域以及现实生活中都有着及其重要的研究意义。本文在已有的模式识别的基础上研究了花卉种类的识别,构建了基于花卉特征的分类体系以及基于 SVM 的多级分类器,并设计实现了花卉分类的原型系统。实验结果表明,在少量花卉样本的情况下,利用该模型进行分类,具有较好的稳定性和准确率。
标签:最优 世纪 模拟 泛化 ges 基础 总结 包括 大数据时代
原文地址:http://www.cnblogs.com/gungunecho/p/7774643.html