机器学习-周志华-第一章

时间：2018-11-06 13:24:57 阅读：360 评论：0 收藏：0 [点我收藏+]

绪论

1.1 引言

什么是机器学习？

它是一门致力于研究如何通过计算的手段，利用经验来改善系统自身性能的一门学科。所研究的主要内容是计算机如何通过数据产生模型，即学习算法。有了学习算法后，当我们给它提供经验数据时就能基于这些数据产生模型。在面对新数据时学习算法会给我们相应的判断。经验通常以数据的形式存在

名词理解

模型：一类问题的解题步骤

算法：一个问题的解题步骤

学习算法：由数据产生的一类问题的解题步骤。通过学习算法从数据中获得模型

ps：阿尔法狗零自学三天以100:0战胜阿尔法狗。这里阿尔法狗零利用人类经验提升自身能力，这就是机器学习

1.2 基本术语

数据集

示例

属性、特征

属性空间、样本空间、输入空间：数据的维度空间

特征向量：

学习、训练：从数据中学得模型的过程

训练数据：训练过程中使用的数据

训练样本：

训练集：多个训练样本的集合

假设：学到的模型

真相：数据某种潜在的规律

标记：示例的结果信息

样例：有标记信息的示例

标记空间、输出空间：（x,y），y：所有标记的集合

分类：预测值是离散的学习任务

二分类：只涉及两个类别的分类

多分类：

回归：预测值是连续的学习任务

聚类：将训练集中的示例分组

监督学习：训练数据中拥有标记信息的学习任务。如分类和回归

无监督学习：训练数据中不包含标记信息的雪人任务；如聚类

泛化能力：学得模型适用于新样本的能力

1.3 假设空间

科学推理两大基本手段：归纳和演绎

归纳：从特殊到一般的泛化过程，即从具体事实归纳出一般性规律。从样例中学习，显然是一个归纳过程，也称归纳学习

演绎：从一般到特殊的特化过程，即从基础原理推演出具体状况。例如在数学中，由一组公理推到出定理，这就是演绎

归纳学习有广义和狭义之分

广义归纳学习基本是从样例（带有标记信息的训练数据）中学习

狭义归纳学习要求从训练数据中学得概念，称为概念学习。概念学习技术目前研究和应用都比较少

由概念学习学得概念，由概念得知假设空间。图1.1 西瓜问题的假设空间

整个学习过程：概念学习学得好瓜概念，可以得出好瓜可能的组合，再根据样例数据排除非好瓜的组合，最好得出好瓜的假设

版本空间：一组与训练集一致的假设如何求取版本空间。

求取版本空间：版本空间就是从假设空间剔除了与正例不一致和与反例一致的假设，它可以看成是对正例的最大泛化。

1.4 归纳偏好

当学得模型（多个）面临新样本时，产生不同的输出，这样的学习结果是没有意义的。在产生不同输出时必须选择一个更信赖的模型，这就是归纳偏好。一个有效的学习算法，必须有归纳偏好。大多数时候归纳偏好直接决定了学习算法能否取得好的性能

归纳偏好原则：

奥卡姆剃刀（occam‘s razor）：若有多个假设与与观察一致，选择最简单的

没有免费午餐定理（no freee lunch theorem 简称NFL定理）：若A算法在某些问题上比B算法要好，那必然存在在某些问题上B算法比A算法要好。即没有一个算法试用于任何情况。NFL最重要的寓意是让我们清楚的认识到，脱离具体问题空谈什么学习算法更好是没有意义的。因为若考虑所有潜在问题NFL已经证明了所有算法一样好。

问题：

为什么概念学习中使用样例数据？按照狭义归纳学习应该使用训练数据

课后习题：完整答案

1.1

先看看版本空间定义，文章写得不错

版本空间就是从假设空间剔除了与正例不一致和与反例一致的假设，它可以看成是对正例的最大泛化。

解：

假设空间指的是问题所有假设组成的空间，我们可以把学习过程看作是在假设空间中搜索的过程，搜索目标是寻找与训练集“匹配”的假设。

假设数据集有n种属性，第i个属性可能的取值有titi种，加上该属性的泛化取值(*)，所以可能的假设有∏i(ti+1)∏i(ti+1)。再用空集表示没有正例，假设空间中一共∏i(ti+1)+1∏i(ti+1)+1种假设。
现实问题中常面临很大的假设空间，我们可以寻找一个与训练集一致的假设集合，称之为版本空间。版本空间从假设空间剔除了与正例不一致和与反例一致的假设，它可以看成是对正例的最大泛化。

编号色泽根蒂敲声好瓜
1 青绿蜷缩浊响是
2 乌黑稍蜷沉闷否
数据集有3个属性，每个属性2种取值，一共 3?3?3+1=283?3?3+1=28种假设，分别为

1.色泽=青绿根蒂=蜷缩敲声=浊响
2.色泽=青绿根蒂=蜷缩敲声=沉闷
3.色泽=青绿根蒂=稍蜷敲声=浊响
4.色泽=青绿根蒂=稍蜷敲声=沉闷
5.色泽=乌黑根蒂=蜷缩敲声=浊响
6.色泽=乌黑根蒂=蜷缩敲声=沉闷
7.色泽=乌黑根蒂=稍蜷敲声=浊响
8.色泽=乌黑根蒂=稍蜷敲声=沉闷
9.色泽=青绿根蒂=蜷缩敲声=*
10.色泽=青绿根蒂=稍蜷敲声=*
11.色泽=乌黑根蒂=蜷缩敲声=*
12.色泽=乌黑根蒂=稍蜷敲声=*
13.色泽=青绿根蒂=* 敲声=浊响
14.色泽=青绿根蒂=* 敲声=沉闷
15.色泽=乌黑根蒂=* 敲声=浊响
16.色泽=乌黑根蒂=* 敲声=沉闷
17.色泽=* 根蒂=蜷缩敲声=浊响
18.色泽=* 根蒂=蜷缩敲声=沉闷
19.色泽=* 根蒂=稍蜷敲声=浊响
20.色泽=* 根蒂=稍蜷敲声=沉闷
21.色泽=青绿根蒂=* 敲声=*
22.色泽=乌黑根蒂=* 敲声=*
23.色泽=* 根蒂=蜷缩敲声=*
24.色泽=* 根蒂=稍蜷敲声=*
25.色泽=* 根蒂=* 敲声=浊响
26.色泽=* 根蒂=* 敲声=沉闷
27.色泽=* 根蒂=* 敲声=*
28.空集?
编号1的数据可以删除 2?8，10?12，14?16，18?20，22，24，26，282?8，10?12，14?16，18?20，22，24，26，28(不包含数据1)
编号1的数据可以删除 2727(包含了数据2)
所以版本空间为:
1.色泽=青绿根蒂=蜷缩敲声=浊响
9.色泽=青绿根蒂=蜷缩敲声=*
13.色泽=青绿根蒂=* 敲声=浊响
17.色泽=* 根蒂=蜷缩敲声=浊响
21.色泽=青绿根蒂=* 敲声=*
23.色泽=* 根蒂=蜷缩敲声=*
25.色泽=* 根蒂=* 敲声=浊响
一般情况下版本空间是正例的泛化，但由于数据集中只有1个正例，所以在版本空间中依然包含了这个样本的假设(假设1)。
---------------------
作者：四去六进一
来源：CSDN
原文：https://blog.csdn.net/icefire_tyh/article/details/52065224
版权声明：本文为博主原创文章，转载请附上博文链接！