标签:条件 ref container 神经网络 类型 向量 预测 info 能力
机器学习是计算机基于数据构建概率统计模型
并运用模型对数据进行预测与分析
的学科。
机器学习是专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
机器学习是人工智能
的核心,从大量现象中提取反复出现的规律与模式,是使计算机具有智能的根本途径。
被描述的性质叫属性,不同属性值有序排列得到的向量就是数据,也叫实例
例如:人的属性便肤色、眼睛大小、鼻子长短、颧骨高度
,属性值可以描述为浅、大、短、低
每个属性都代表了一个不同的维度,这些属性共同构成了特征空间
每一组属性值的集合都是这个空间中的一个点,因而每个属性实例都可以视为特征空间中的一个向量,叫特征向量。
学习器的预测输出与样本真实输出之间的差异,是机器学习的重要指标之一
观测结果的数字统计与相应数值组的吻合
测试误差与模型复杂度之间呈现的是抛物线的关系。
机器学习模型,本质上是一个函数,作用是从一个一个样本¥x¥到样本的标记值\(Y\)的映射,即\(Y=f(x)\)
模型需要在给定样本集合\(\{{x_i|i=1,...,n}\}\)以及对应标签\(<Y_1,Y_2,...,Y_n>\)情况下,用假设已知的函数形式\(Y=f(x_i)\)尽可能拟合客观存在的映射函数,并保证在未知分布上具有尽可能相近的拟合能力
如何得到最优模型?
如果将训练集分成10个子集\(D_{1-10}\),交叉验证需要对每个模型进行10轮训练
对算法参数进行设定,是机器学习中重要的工程问题,在神经网络与深度学习中的体现尤为明显。
调参过程中,主要问题就是性能和效率之间的折中。
为了解决过拟合
问题,通常有两种办法,第一是减少样本的特征(即维度),第二就是我们这里要说的“正则化”(又称为“惩罚”,penalty)。
正则化是一种为了减小测试误差的行为(有时候会增加训练误差)。
我们在构造模型时,最终目的是让模型在面对新数据时,能有很好的表现。
如果使用比较复杂的模型,比如神经网络去拟合数据时,很空间出现过拟合现象(训练集表现很好,测试集表现较差),这时,我们就需要使用正则化,降低模型复杂度。
监督学习
基于已知类别的训练数据进行学习
监督学习的任务就是在假设空间中根据特定的误差准则找到最优的模型,可以分成两类方法
无监督学习
基于未知类别的数据进行学习
半监督学习
同时使用已知类别和未知类型的训练数据进行学习
受学习方式的影响,效果较好的算法执行的都是监督学习的任务。
即使是AlphaGo Zero,训练过程也要受围棋胜负规则 的限制,因而也离不开监督学习的范畴。
所以,监督学习是目前机器学习的主流任务。在图像识别领域,高识别训练场的背后是大量被精细标记的图像样本,而对百万的数字图像进行标记需要有耗费大量人力,这就是一种监督学习。
生成方法具有更快的收敛速度和更广的应用范围,判别方法具有更高的准确率和更简单的使用方式
标签:条件 ref container 神经网络 类型 向量 预测 info 能力
原文地址:https://www.cnblogs.com/chenqionghe/p/12586694.html