机器学习基本概念理解

时间：2017-10-16 23:24:41 阅读：127 评论：0 收藏：0 [点我收藏+]

数据集：关系型数据库中有很多表，表里面有很多记录，很多记录就可以认为是数据集

属性（特征）：一个表中有很多条记录，每条记录的表有很多属性，如tb_stu(stu_id,stuname,stu_sex)s表中有3条属性

属性值：属性的取值，如stu_id可以等于1,2.3....n。stu_sex可以为男,也可以为女。

特征向量：我们可以将属性的组合投影到三维空间，用几何和代数的工具来表示他们。如三个属性，可以头影城三维空间。每个属性有很多取值，不管三个属性取值如何组合，都会在这个三维空间中。其中三维空间的一个点，我们称为特征向量。

训练：从所用的数据学的模型的过程称为学习，或训练，如100个数据集，使用80个来训练。

归纳：数学归纳法，当n=1,时，f(1)=.... 当n=2时，f(2)=.. 求出通项公式，从具体到一般性的规律

演绎:从基础原理推演出具体状况，有一般推到出具体，共性===》个体。

假设空间：就是根据属性的取值的组合，构成一个假设空间。色泽=，根蒂=，敲声=，结果是好瓜

色泽有4中情况，根蒂有4中，敲声有4种，3中基本的，还有一种*构成4种，构成空间为4*4*4+1(这个自己理解)=65

假设：学得模型对应了关于数据的某种潜在的规律，称为假设。（一时不理解很正常，后续会讲清楚）假设就是从假设空间中进行搜索与删除和正例和反例不一致的假设，最终与获得训练集一致的假设。这就是我们学的结果。

归纳偏好：若我们的算法喜欢尽可能特殊的模型，则它会选择好瓜<=>(色泽=*)^(根蒂=蜷缩)^（敲声=浊响),但我们的算法有一般的模型好瓜<=>(色泽=*)^(根蒂=蜷缩)^（敲声=*),机器学习算法在学习过程中对某种类型假设的偏好，称为归纳偏好。

样例（示例）：训练样本包含结果信息如(色泽=青绿，根蒂=蜷缩，敲声=浊响，结果是好瓜），拥有结果是好瓜，拥有了标记信息，这样一个训练数据样本，就是样例。一般用(xi,yi)来表示第i个样本，

yi属于Y（Y是所有标记集合，或称为输出空间，标记空间）

预测：就是对训练的建成模型，然后对没有训练的数据进行预测。根据预测的值是连续值，则为回归，离散的则为分类。

根据训练数据是否拥有标记信息，学习的任务可以大致分为两大类：监督学习和无监督学习。

分类和回归都是监督学习，都包含样例。

聚类是后者的代表。

泛化：训练模型适用于新样本的能力称为泛化能力。

本文出自 “简答生活” 博客，谢绝转载！

原文地址：http://1464490021.blog.51cto.com/4467028/1973008

踩

(0)

评论一句话评论（0）

分享档案

更多>

周排行