虽然是绪论。。但是。。。真的有点难!不管怎么说,一点点前进吧。。。
声明一下答案不一定正确,仅供参考,为本人的作答,希望大神们能多多指教~
1.1 表1.1中若只包含编号为1和4的两个样例,试给出相应的版本空间。
解答:本题考查版本空间、假设空间的概念。简而言之,假设空间是该问题情景下,所有的取值可能性(包括单属性泛化、二属性泛化、X属性泛化……全泛化的情况),而版本空间则是指在测试用样本情境下,满足样本内所有正例的假设集合(一般版本空间内的假设都是带有属性泛化)。
我们先来看一下1和4样例组成的表,以供接下来探讨进行参考:
编号 | 色泽 | 根蒂 | 敲声 | 好瓜? |
1 | 青绿 | 蜷缩 | 浊响 | 是 |
4 | 乌黑 | 稍蜷 | 沉闷 | 否 |
解题中,要紧扣“我只知道这张表的信息,去推测整体”的思想。根据此表信息,假设空间是(2+1)X(2+1)X(2+1)+1=28种假设,版本空间则应该是假设空间内能确定1是好瓜,同时刚好能排除4是好瓜的所有可能,所以应该是(色泽=青绿)∧(根蒂=蜷缩)∧(敲声=浊响),以及本例的一个属性泛化(三种),和两个属性泛化(三种),共7种。不可加入三属性泛化,因为(色泽=*)∧(根蒂=*)∧(敲声=*),这种情况会把编号4也判定为好瓜,与样本不符。
1.2 与使用单个合取式来进行假设表示相比,使用“析合范式”将使得假设空间具有更强的表示能力。若使用最多包含K个合取式的析合范式来表达表1.1西瓜分类问题的假设空间,试估算共有多少种可能的假设。
解答:本题考查一些离散数学的知识,同时为后文提示了使假设空间具有更强表示能力的一种编程表达。我们再来看一下表1.1:
编号 | 1 | 2 | 3 | 4 |
色泽 | 青绿 | 乌黑 | 青绿 | 乌黑 |
根蒂 | 蜷缩 | 蜷缩 | 硬挺 | 稍蜷 |
敲声 | 浊响 | 浊响 | 清脆 | 沉闷 |
好瓜 | 是 | 是 | 否 | 否 |