ML(2): 基本术语

时间：2017-04-08 23:51:08 阅读：305 评论：0 收藏：0 [点我收藏+]

标签：img 输入记录三维空间基本 size tor 回归培养

归纳总结机器学习相关的基本术语，以一批西瓜的数据为例，例如：（色泽=青绿；根蒂=蜷缩；敲声=浊响），（色泽=乌黑；根蒂=稍蜷；敲声=沉闷），（色泽=浅白；根蒂=硬挺；敲声=清脆）。。。

示例（instance）/样本（sample）：对于某个事件或对象的描述（上例中的一个西瓜）
数据集（data set）：一组记录的合集
属性（attribute）/特征feature）：反映事件或对象在某方面的表现或性质的事项，如：色泽、根蒂、敲声
属性值（attribute value）：属性上的取值，如：“青绿","乌黑"
属性空间（attribute space）/样本空间（sample space）/输入空间: 属性张成的空间
特征向量（feature vector）：在属性空间里每个点对应一个坐标向量，把一个示例称作特征向量。如：把"色泽”、“根蒂”、“敲声”作为三个坐标轴，则他它们张成一个用于描述西瓜的三维空间，每个西瓜都可在这个空间中找到自己的坐标位置，由于空间中的每个点对应一个坐标向量，因此我们也把一个示例称为一个“特征向量”
维数（dimensionality）：描述样本参数的个数（也就是空间是几维的）
学习（learning）/训练（training）：从数据中学得模型的过程，这个过程通过执行某个学习算法来完成。
训练数据（training data）：训练过程中用到的数据
训练样本（training sample）:训练用到的每个样本
训练集（training set）：训练样本组成的集合
假设（hypothesis）：学得模型对应了关于数据的某种潜在规则，这种潜在规律自身，则称为“真相”或"真实“
标记（label）：关于示例的结果信息，比如这是一个“好瓜”。
样例（example）：拥有标记信息的示例，如下说明：
分类（classification）：预测时离散值，比如”好瓜“、"坏瓜”之类的学习任务称为分类
回归（regression）：若预测的是连续值，比如西瓜成熟度0.95、0.37之类的学习任务称为“回归”
聚类（clustering）：把训练集中的对象分为若干组，每组称为一个簇（cluster），这些自动生成的簇可能对应一些潜在的概念划分，如：“浅色瓜”、“深色瓜”，甚至“本地瓜“、”外地瓜“
有监督学习（supervised learning）：训练数据拥有标记，典范--分类和回归
无监督学习（unsupervised learning）：训练数据无标记，从数据集中自己自动发现模式和关系，典范--聚类 (先天的判断力，无需后天培养)
泛化（generalization）能力：训练出来的模型适用于新样本的能力，具有强泛化能力的模型能很好地适用于整个样本空间。

ML(2): 基本术语

标签：img 输入记录三维空间基本 size tor 回归培养

原文地址：http://www.cnblogs.com/tgzhu/p/6671111.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行