机器学习技法课之Aggregation模型

时间：2016-04-01 00:56:15 阅读：153 评论：0 收藏：0 [点我收藏+]

标签：

Courses上台湾大学林轩田老师的机器学习技法课之Aggregation 模型学习笔记。

混合（blending）

本笔记是Course上台湾大学林轩田老师的《机器学习技法课》的学习笔记，用于学习之后的一些总结。

首先，对于Aggregation模型，其基本思想就是使用不同的 g t 来合成最后的预测模型 G t 。

对于合成的方式主要有四种：

方法	数学描述
1. 选择。选择最值得可信的 g t 来当做最终的模型，而这个 gt 可以使用validation set 来进行选择	$$G(x)=argmin { t \in {1,2...T} }E {val} (g_t)$$
2. 均一式(uniform)混合(blending)。使用每个 g t 一票的方式来决定最终的 G t	G ( x ) = s i g n ( ∑ T t = 1 1 ⋅g t ( x ) )
3. 非均一式(non-uniform)混合。对于不同的 g t 给予不同的权重。该方法包含了上述两种方法，a. 当 α t = 1 时，是uniform混合，b. E v a l ( g ( t ) ) 最小的 g t 的 α t 为1，其他都是0，这就是选择方法	G ( x ) = s i g n ( ∑ T t = 1 α t gt ( x ) ) , α t ≥ 0
4. 条件是混合。在不同的条件下选择不同的 g t ,该方法包含了non-uniform方法，当 q t ( x ) = α t 时	G ( x ) = s i g n ( ∑ T t = 1 q t (x ) ⋅ g t ( x ) ) , q t ( x ) ≥ 0

选择

该方法的

优点：简单，流行

缺点：依赖一个很强的假设

在该方法中， g t 是使用validation set来进行选择的，选择的标准是 g t 在验证集上的错误率 $E {val}(g_t) 最低，但如果使用 E {in}(g_t) 来代替 E {val}(g_t) ，则需要一个很强的假设来保证会有一个很小的 E {val}(g_t) 以及 E_{out}(g_t)$.

均一式混合(uniform blending)

此方法最好是能够有不同的 g t ,这样能从多方面的刻画数据，使得结果更加符合明主的方式，让小数服从多数。

该方法不仅适用于2分类，也适用于多分类，还适合回归问题。对于回归问题： G (x ) = 1 T ∑ T t = 1 g t ( x )

uniform blending还有一个优点是，使用blending的方式产生的结果，比将每个单独的 g t 的结果加起来再取平均的结果还好。

下面是理论分析：技术分享

上述理论表明，使用投票的方法产生的误差要比使用单独的 g t 的结果之和再平均产生的误差要小。

非均一式混合(non-uniform blending) 或者线性混合（linear blending)

技术分享

其中对于 α t 的限制是可以不需要的，因为当 α < 0 时，相当于对 g t 进行取反而已。

条件式混合

技术分享

learning（学习）

在Aggregation模型中，除了blending（混合）之外，还有一种思想，就是在混合的过程中，同时进行 g t 的生成，这种思想就是learning。混合的思想是，所有的 g t 都是已知的，重点在于每个 g t 的参数以及 g t 是怎么产生的。

在learning的模型中，最关键也在 g t 的多样性，多样性可以从以下几个方面来获得：

使用不同的模型来产生 g t ，比如SVM，NB等
同一个模型，使用不同的参数
有些算法本身就具有随机性，比如PLA使用不同的随机种子
使用不同的训练数据来获得模型，可以对数据进行采样获得多份不同的数据

混合和学习三种不同集成方式下的对照表

集成方式	blending（混合）	learning（学习）
均一方式（uniform）	voting（投票）/averaging	Bagging
非均一方式（non-uniform）	linear blending	AdaBoost
条件式(conditional)	Stacking(Any blending)	Decision Tree