标签:大小 回归 summary 算法 评估 随机排序 大数据 推断 strategy
通过对数据的经验计算(experience computed),提升性能度量
3个关键性质
a) 存在一种可以学习的潜在的模式(underlying pattern)
b) 没有明确的可编程的定义
c) 存在和模式相关的数据
领域 | 描述 |
---|---|
机器学习 | 使用数据计算假设g,以此估计目标函数f |
数据挖掘 | 使用大数据,发现有趣的特性 |
人工智能 | 计算得到一个具有智能行为的结果 |
统计学 | 使用数据从一个未知的分布得出推论 |
对于特征 $\textbf{x}=(x_1, x_2, ..., x_d)$,计算每一个特征的权重值,当
$\sum_{i=1}^dw_ix_i > threshold$,$y=1$
$\sum_{i=1}^dw_ix_i < threshold$,$y=-1$
可以将感知机理解为线性(二元)分类器
$h(\textbf{x}) = sign\Big(\big(\sum_{i=1}^d w_i x_i\big) - threshold\Big) $
目标:需要一个g,用来估计目标函数f ($g \approx f$)
必要条件:$g \approx f on D$,理想情况是$g(x_n) = f(x_n) = y_n$
难点:$H$无穷大
思路:从某个 $g_0$ 开始,然后通过数据集 $D$ 纠正它的错误
tips: 之后会用权重向量 $\textbf{W}_0$ 代替 $g_o$
For t = 0, 1...
1) 找到下一个(Next) $\textbf{w}t$的错误,标记为$(\textbf{x}{n(t)}, y_{n(t)})$
$$sign\big( \textbf{w}t^T \textbf{x}{n(t)} \big) \neq y_{n(t)}$$
2) 尝试通过更新$\textbf{w}t$的值来更正分类错误:
$$ \textbf{w}{t+1} \leftarrow \textbf{w}t + y{n(t)} \textbf{x}{n(t)} $$
直到不再有错误出现,返回最后的$\textbf{w}$ (称之为 $\textbf{w}{PLA} $ )作为函数g
1) 找到一个$\textbf{w}t$的错误,标记为$(\textbf{x}{n(t)}, y_{n(t)})$
$$sign\big( \textbf{w}t^T \textbf{x}{n(t)} \big) \neq y_{n(t)}$$
2) 通过更新$\textbf{w}t$的值来更正分类错误:
$$ \textbf{w}{t+1} \leftarrow \textbf{w}t + y{n(t)} \textbf{x}{n(t)} $$
直到遍历数据集时不再有分类错误,则返回最后的$\textbf{w}$ (称之为 $\textbf{w}{PLA} $ )作为函数g
tips: 取下一个样本的操作可以用常规遍历(naive cycle(1, 2, ..., N)),或者预先计算好的随机排序
如果PLA终止了且不再有分类错误,那么存在w能够线性划分数据集D而没有分类错误,那么这样的数据集D是线性可分的
**$\textbf{w}_t$在更新后与$\textbf{w}_f$更加接近(aligned with)**
$\textbf{w}_t$不会增长得过快
从$\textbf{w}_o = 0$开始,经过了T次的更新以后:
$$ \frac{\textbf{w}_f^T}{\lVert \textbf{w}_f \lVert} \frac{\textbf{w}_t}{\lVert \textbf{w}_t \lVert} \ge \sqrt{T} · constant$$
$constant = \displaystyle\frac{\rho}{R}$,其中$\rho = min y_n\frac{\textbf{w}_f^T}{\lVert \textbf{w}_f \lVert} \textbf{x}_n$,$R = max \lVert \textbf{x}_n \lVert^2$
向量标准化后,其乘积会小于等于1,且在更新了T次后,有下界存在。
只要数据集线性可分,并且通过分类错误更新w,那么
易于实现,速度快,能在任意的维度下工作
调整PLA方法,以得到一个足够好的g
Pocket算法
初始化pocket 权重为$\hat{\textbf{w}}$
1) 找到一个(随机的)$\textbf{w}t$的错误,标记为$(\textbf{x}{n(t)}, y_{n(t)})$
$$sign\big( \textbf{w}t^T \textbf{x}{n(t)} \big) \neq y_{n(t)}$$
2) 尝试通过更新$\textbf{w}t$的值来更正分类错误:
$$ \textbf{w}{t+1} \leftarrow \textbf{w}t + y{n(t)} \textbf{x}{n(t)} $$
3) 如果$\textbf{w}{t+1}$的分类错误比$\hat{\textbf{w}}$少,则将$\hat{\textbf{w}}$更新为$\textbf{w}{t+1}$,直到足够的迭代次数,返回最后的$\hat{\textbf{w}}$ (称之为 $\textbf{w}{pocket} $ )作为函数g
多元分类
回归
结构学习
Mini Summary
监督学习
监督学习:每个$\textbf{x}_n$都有对应的$\textbf{y}_n$
非监督学习
非监督学习:多样的,可能有各种不同的目标$
半监督学习 (semi-supervised)
半监督学习:当获取全部label的代价高昂时,利用未标记数据学习的方法
强化学习
利用 $(\textbf{x}, \tilde{y}, goodness)$ 信息学习的方法
强化学习:利用部分的/ 不明确的信息(通常是顺序的(sequentially))学习 $
Mini Summary
Mini Summary
X每一个维度都有复杂的物理意义,但对于机器学习而言,这类特征更易学习
通常需要手动或自动的转换为具体的特征
通常需要特征提取、特征转换
Mini Summary
从A learning Puzzle 和 No Free lunch 开始
因为对target function 一无所知,所以有可能假设得到的结果完全不对,即训练误差很小,但泛化误差特别大的情况,这种情况相当于无法学习
以从弹珠罐子中(罐子中只有橙色和绿色弹珠)抽样为例,$\mu$表示罐子中橙色占总体的比例,$\nu$表示样本中橙色的比例。
那么能通过$\nu$来推断$\mu$吗
No: 抽样的结果(弹珠比例)可能和总体完全不同!
Yes: 已知$\nu$有可能很接近未知的$\mu$
在一个大的样本中(样本容量为N),$\nu$近似于$\mu$(差异用$\epsilon$表示),且
$$ \mathbb{P}[|\nu - \mu| > \epsilon] \le 2 exp\big(-2\epsilon^2N\big)
$$
称之为霍夫丁不等式,
$\nu = \mu$的假设是概率近似正确(PAC:probably approximately correct)的。
霍夫丁不等式的说明
霍夫丁不等式告诉我们,当N足够大时,就能通过$\nu$来推断 $\mu$
问题描述: 大的训练样本,有一定概率能够通过已知的$\mathbb{P}[h(\textbf{x}_n) \ne y_n]$推断未知的$\mathbb{P}[h(\textbf{x} \ne y_n)]$
对于一个特定的(fixed)h,在样本很大的时候,样本内误差 $E_{in}(h)$ 有可能很接近 $泛化误差E_{out}(h)$ (差别不大于$\epsilon$),即:
$$ \mathbb{p}[| E_{in}(h) - E_{out}(h) | > \epsilon ] \le 2 exp\big(-2 \epsilon^2 N \big) $$
类似于从罐子里抽取弹珠的例子:
结论:如果 $E_{in}(h) \approx E_{out}(h)$ 并且 $E_{in}(h)$足够小 $\Longrightarrow$ $E_(out)(h)$足够小 $\Longrightarrow$ 在数据分布为P的时候,$h \approx f$
Yes: 如果特定的h对应的$E_{in}(h)$很小并且学习算法能够选到那个h $\Longrightarrow$ $g = f$是PAC的
No: 如果算法只能选到某一个特定的h,那么$E_{in}(h)$几乎总是不会很小 $\Longrightarrow$ $g \ne f$ 是PAC的
real learning
算法A能够在假设空间H(例如PLA)中做选择,而不是只能选择某个特定的h
对于一个特定的假设来说,霍夫丁不等式告诉我们:对从输入空间中采样得到的数据集的$E_{in}(h_m)$不会太高。但对于所有假设空间中的h来说,得到一个Bad Data的概率会骤然升高,类似于一群人抛硬币,出现连续5个正面的概率问题。
Bad Data: $E_{out}(h)$和$E_{in}(h)$差别很大,一般情况是$E_{in}(h)$很小而$E_{out}(h)$很大
有效的算法A:
选择$E_{in}(h_m)$最小的假设$h_m$,将其作为最终的假设g
标签:大小 回归 summary 算法 评估 随机排序 大数据 推断 strategy
原文地址:http://www.cnblogs.com/shencc3/p/7903702.html