Foundataions of Machine Learning: Rademacher complexity and VC-Dimension(1)
前面两篇文章中,我们在给出PAC-learnable定理时,都有一个前提假设,那就是 Hypothesis set 是有限的。但很明显,在实际中的假设集大都是无限的,比如上一篇文章中介绍的与坐标轴对齐的矩阵的例子,其 Hypothesis set 就是无限的。
假设我们也用上一章的方法来分析,最后得到的上界中含有无穷大的项$log|H|$, 显然这没有什么意义。 于是我们必须用其他的方法来衡量无限的假设集。换句话说,当 Hypothesis set 越大, 那么他的复杂度就越高, 但当 Hypothesis set 为无限大, 那么我们应该另外找一些有限的指标来衡量模型的复杂度。这就是我们本章要解决的问题。
实际上,去衡量这种复杂度有很多方法, 在接下去的两篇文章中,我们介绍其中的三种。 第一个是 Rademacher complexity, 第二个是 Growth function, 第三个是 VC-dimension。
(一) Rademacher Complexity
这里我们仍然用H表示假设集, h表示假设集中的元素。 但这里我们不再像前面文章那样使用0-1损失函数, 而是用更一般的损失函数$L:\mathcal{Y}\times\mathcal{Y}\rightarrow\mathbb{R}$。 对每一个假设$h:\mathcal{X}\rightarrow\mathcal{Y}$, 与之的关联的一个函数$g:\mathcal{X}\times\mathcal{Y}\rightarrow L(h(x),y)$,所有$g$ 的集合记为 G ,于是对于每一个H, 都有于之相关联的G。所以对H的分析转换到对G的分析。
Rademacher complexity 的思想:通过去衡量一个假设对随机噪声的拟合程度好坏来评估这个函数族的复杂度。
定义 2.1 Empirical Rademacher Complexity 令G为一个从Z到$[a,b]$的映射函数集合,$S=(z_1,z_2,...,z_m)$为大小为m的固定样本,其中$z_i\in Z$。那么相对于样本S,函数族G的Empirical Rademacher Complexity定义为:
\begin{equation*}\widehat{\mathfrak{R}}_S(G)=\mathop{E}\limits_{\sigma}[\sup\limits_{g\in G}\frac{1}{m}\sum _{i=1}^m\sigma_ig(z_i)]\end{equation*}
其中$\sigma=(\sigma_1,\sigma_2,...,\sigma_m)^T$,且$\sigma_i$是取值为$\{+1,-1\}$独立均匀随机变量。我们称随机变量$\sigma_i$为Rademacher变量。
对于这个定义注意以下几点:
定义 2.2 Rademacher Complexity 令D为产生样本的分布。对任意的整数$m>1$,G的Rademacher Complexity是Empirical Rademacher Complexity的期望,其中的期望是基于样本根据分布采样而来的:
$$\mathfrak{R}_m(G)=\mathop{E} \limits _{S\sim D^m}[\widehat{\mathfrak{R}}_S(G)]$$
为了下面的定理证明,需要先介绍McDiarmid概率不等式。
McDiarmid不等式:令$(x_1,...,x_m)\in \mathcal{X}^m$为独立随机变量的集合,假设存在$c_1,...,c_m>0$,使得$f:\mathcal{X}\rightarrow R$满足以下条件:
$$|f(x_1,...,x_i,...,x_m)-f(x_1,...,x_i‘,...,x_m)|\leq c_i,$$
对所有的$i\in[1,m]$以及任意的点$x_1,...,x_m,x_i‘\in\mathcal{X}$都成立。令$f(S)$ 表示 $f(x_1,...,x_m)$,那么对所有的$\varepsilon>0$,下面的不等式成立:
$$Pr[f(S)-E[f(S)]\geq \epsilon]\leq exp(\frac{-2\epsilon^2}{\sum_{i=1}^mc_i^2})$$
$$Pr[f(S)-E[f(S)]\leq -\epsilon]\leq exp(\frac{-2\epsilon^2}{\sum_{i=1}^mc_i^2})$$
定理 2.1 令G为从Z到$[0,1]$的映射函数族。那么对任意的$\delta>0$,至少以概率$1-\delta$,以下的不等式对所有的$g\in G$都成立:
$$E[g(z)]\leq\frac{1}{m}\sum_{i=1}^m g(z_i)+2\mathfrak{R}_m(G)+\sqrt{\frac{log\frac{1}{\delta}}{2m}},$$
$$E[g(z)]\leq\frac{1}{m}\sum_{i=1}^m g(z_i)+2\mathfrak{\widehat{R}}_S(G)+3\sqrt{\frac{log\frac{2}{\delta}}{2m}}.$$
证明: 我们分成八个步骤来证明这个定理。
我们把上面的结果应用到0-1损失函数,得到以下的引理。
引理 2.1 令H为取值为$\{-1,+1\}$的函数族,令G为与H相对应的且损失函数为0-1损失的函数族:$G=\{(x,y)\rightarrow\mathbb{I}(h(x)\neq y):h\in H\}$。对任意的样本$S=((x_1,y_1),...,(x_m,y_m))$,以下等式成立:
$$\widehat{\mathfrak{R}}_S(G)=\frac{1}{2}\widehat{\mathfrak{R}}_{S_\mathcal{X}}(H).$$
证明:对于任何一个样本$S=((x_1,y_1),...,(x_m,y_m))\subseteq \mathcal{X}\times\{-1,+1\}$, 根据定义:
\begin{align*}\widehat{\mathfrak{R}}_S(G) &= \mathop{E}_{\sigma} [\sup_{h\in H}\frac{1}{m}\sum_{i=1}^m\sigma_i\mathbb{I}(h(x_i)\neq y_i)] \\&= \mathop{E}_{\sigma}[\sup_{h\in H}\frac{1}{m}\sum_{i=1}^m\sigma_i\frac{1-y_ih(x_i)}{2}] \\&= \frac{1}{2}\mathop{E}_{\sigma}[\sup_{h\in H}\frac{1}{m}\sum_{i=1}^m(\sigma_i-\sigma_iy_ih(x_i))] \\&= \frac{1}{2}\mathop{E}_{\sigma}[\frac{1}{m}\sum_{i=1}^m\sigma_i + \sup_{h\in H}-\sigma_iy_ih(x_i)] \\&= \frac{1}{2}\mathop{E}_{\sigma}[\frac{1}{m}\sup_{h\in H}-\sigma_iy_ih(x_i)] \\&= \frac{1}{2}\mathop{E}_{\sigma}[\sup_{h\in H}\frac{1}{m}\sum_{i=1}^m\sigma_ih(x_i)] \\&= \frac{1}{2}\widehat{\mathfrak{R}}_{S_\mathcal{X}}(H)\end{align*}
其中,$\sigma_i$与$-\sigma_iy_i$的分布是一样的。证毕!
将定理 2.1 和引理 2.1 应用于二分类的$0-1$损失,可知:
$$\widehat{\mathcal{R}}(h)=\frac{1}{m}\sum_{i=1}^m\mathfrak{1}_{(h(x_i)\neq y_i)}=\frac{1}{m}\sum_{i=1}^mg(x_i)=\widehat{E}_S[g]$$
$$\mathcal{R}(h)=E[\widehat{\mathcal{R}}(h)]=\mathop{E}_S[\widehat{E}_S[g]]=E[g(z)]$$
故可得以下定理:
定理 2.2 Rademacher complexity 界——二分类情况
令H为取值为$\{-1,+1\}$的函数族,令D为输入空间$\mathcal{X}$上的分布。那么,对于任意的$\delta>0$,在根据D采样且大小为m的样本S上,以概率$1-\delta$以下的不等式对任意的$h\in H$都成立:
$$\mathcal{R}(h)\leq \widehat{\mathcal{R}}(h)+\mathfrak{R}_m(H)+\sqrt{\frac{log\frac{1}{\delta}} {2m} },$$
$$\mathcal{R}(h)\leq \widehat{\mathcal{R}}(h)+\widehat{\mathfrak{R}}_S(H)+3\sqrt{\frac{log\frac{2}{\delta}} {2m} }.$$
注意,定理中$\widehat{\mathfrak{R}}_S(H)=\mathop{E}_\sigma[\sup_{h\in H}\frac{1}{m}\sum_{i=1}^m\delta_ih(x_i)]$, $\mathfrak{R}_m(H)=\mathop{E}_{S\backsim D^m}[\widehat{\mathcal{R}}_S(H)]$。
这个定理指出了在基于Rademacher Complexity下二分类错误的界。另外,根据第二个式子,只要我们计算出$\widehat{\mathfrak{R}}_S(H)$的值就可以计算出$\mathcal{R}(h)$的界,但实际上$\widehat{\mathcal{R}}_S(H)$的计算等价与经验风险最小化问题。即:
$$\widehat{\mathfrak{R}}_S(H)=\mathop{E}_\sigma[\sup_{h\in H}\frac{1}{m}\sum_{i=1}^m-\delta_ih(x_i)]=-\mathop{E}_\delta[\inf_{h\in H}\frac{1}{m}\sum_{i=1}^m\delta_ih(x_i)].$$
由上式可知,对于一个固定的$\delta$,计算上式等价于empirical risk minimization 问题,因此属于NP问题。
Foundataions of Machine Learning: Rademacher complexity and VC-Dimension(1),布布扣,bubuko.com
Foundataions of Machine Learning: Rademacher complexity and VC-Dimension(1)
原文地址:http://www.cnblogs.com/boostable/p/foundationsOfML_RCVC_1.html