【机器学习基础】噪声与误差

时间：2015-01-02 11:01:42 阅读：158 评论：0 收藏：0 [点我收藏+]

标签：机器学习

目标分布（Target Distribution）

在实际情形中，训练数据的误标签的情况，输入数据某一维不准确的情况，都可能导致数据信息不精准，产生噪声数据。
由于受到噪声的影响，我们现在可以把y也看做是一种概率分布,y也是从某种分布中取样而来的，即y~P(y|x)。

这里的P(y|x)被称为目标分布。

回头来看，我们可以把学习的目标总结为，在常见的输入(符合P(x))中可以预测出理想的目标(P(y|x))。

误差的衡量

之前我们使用真实误差Eout(g)来衡量误差，这里我们考虑的是未知x的抽样数据，针对每一个x的个别衡量和分类（0/1问题）问题。

衡量每个点的误差(Pointwise Error Measure)

我们用每个点的误差衡量来衡量整体误差，用err表示。

我们用0/1错误来衡量分类问题，用平方错误来衡量回归问题。

新的学习流程

错误的类型

不同的错误类型可能导致不同的惩罚策略。

这两种错误分别是错误接受(false accept，即实际是负例，却判为正例)和错误拒绝(false reject，即实际为正例，却判为负例)。
在有些地方这两种错误也称作false positive(假阳性，误报，把合法的判断成非法的)和false negative(假阴性，漏报，把非法的判断成合法)。这里有时会弄混淆，记得在医学上，阳性代表有病或者有病毒，阴性代表正常，那么假阳性就是把正常诊断为有病毒，而假阴性就是把有病毒诊断为正常。

超市指纹识别的例子

如果在超市中通过指纹识别来进行打折活动，如果是vip用户，之前有指纹录入的话，就应该有优惠活动，否则没有。
如果发生false reject的情况，那么顾客可能会不高兴，这样就会损失了一部分未来的生意；而如果发生false accept的话，超市只不过损失了一点小钱。
所以对于超市的成本表，false reject会牺牲成本比较大，而false accept牺牲的成本会较小。所以，我们应该尽量避免false reject的情形。

CIA指纹识别的例子

如果美国中情局，用指纹识别来判断该人是否有权限进入系统查看重要资料。
那么，发生false accept的情况会导致很严重的后果，而false reject的话，就不会有太大的影响。
所以对于CIA的成本表，应该尽量避免false accept的情形。

小结

我们根据不同的错误成本，要考虑不同的算法设计策略。具体的问题，我们将在后面的具体算法介绍中，给出解释。这里只需要有一个概念就可以了。
我们在归纳一下我们的机器学习流程。在之前，我们知道用err来衡量误差，而在实际应用中，应该根据不同的错误类型，采取不同的设计策略，所以在真实情况中，采用err hat来评估错误。

转载请注明作者Jason Ding及其出处
Github主页(http://jasonding1354.github.io/)
CSDN博客(http://blog.csdn.net/jasonding1354)
简书主页(http://www.jianshu.com/users/2bd9b48f6ea8/latest_articles)

【机器学习基础】噪声与误差

标签：机器学习

原文地址：http://blog.csdn.net/jasonding1354/article/details/42339973

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行