机器为什么可以学习(4)---错误和噪声

时间：2017-02-13 23:58:09 阅读：342 评论：0 收藏：0 [点我收藏+]

标签：流程图理想问题：学习 img 课程 ini 存在内容

1、课程主要内容

　　上节课中学习了VC维的相关只是，在hypothesis set的VC维有限，且输入数据N够大，并可以找到一个足够小的Ein，那么学习就是可能的。

　　技术分享

　　但是在实际的情况中，数据来源不都是理想的，必然存在着错误和噪声，本次课程讨论在错误和噪声存在的情况下，机器为什么还可以学习？

　　技术分享

　　在噪声和错误存在的请款下，vc bound如何进行放缩使得学习在理论上是可行。

2、噪声存在下的学习

　　技术分享

　　在之前的学习流程图中，在分布的部分加上了噪声，这个时候会对之前的推导有什么影响？

　　噪声来源：

　　数据部分和标签部分都有可能产生噪声，比如标签的误标等，数据采集的误差等；

　　之前介绍vc bound的关键使用了弹珠和罐子的例子，以弹珠表示每个具体的数据实例，罐子表示整个数据空间，通过在罐子中进行抽样来预测整个罐子的情况；

　　技术分享

　　对应到学习上：此处弹marble弹珠前加上了确定的修饰，表示弹珠的真实颜色和采样数据颜色相同没有噪声

　　技术分享

　　存在噪声时，弹珠的颜色就因为噪声的原因可能为不确定的：

　　技术分享

　　存在“变色龙”弹珠时，我们怎么办？还是可以采取抽样的办法，不过遇到特殊的弹珠时，需要记下抽样时刻的颜色，也就是针对在某一采样时间下，采出的样本来反应整体；

　　此时，对于VC bound 来说，不光是数据x来源与同一个分布，此时y还要来源一个关于x的条件概率，整体来说就是（x,y）符合联合概率分布f(x,y):

　　技术分享

　　目标分布函数p(y|x)？？？？

　　技术分享

3、error measure

　　在学习完成后使用测试集对训练的模型进行性能测试；之前的推导过程中，我们使用在样本以外的数据集上的错误：

　　技术分享

　　更一般的来说，针对某个模型自然的就要考虑到：

　　抽样样本之外，对某个具体的点来衡量：

　　技术分享

　　对于二元分类问题：

　　技术分享

　　以上的错误衡量常被称为0/1错误；

　　单点衡量经常使用整个数据集上出错的点的平均：

　　技术分享

　　对于样本内可以使用：

　　技术分享

　　几种常用的错误衡量方式：

　　0/1错误：

　　技术分享

　　平方误差：

　　技术分享

　　不同错误衡量下的最优的mini target 的选择办法：

　　技术分享

机器为什么可以学习(4)---错误和噪声

标签：流程图理想问题：学习 img 课程 ini 存在内容

原文地址：http://www.cnblogs.com/daguankele/p/6395640.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行