标签:
博客已经迁移至Marcovaldo’s blog (http://marcovaldong.github.io/)
机器学习基石第八讲主要介绍噪声和误差度量,笔记整理在下面。
现实中的数据很可能含有噪声(noise),例如前面的信用卡发放问题中,有的顾客符合发放标准但没有发给,或者同样情况的顾客有人发了有人没法,再或者顾客的信息不正确等等,VC bound是否在由噪声的情况下工作呢?
继续使用前面抽弹珠的例子,罐子中每一个弹珠代表一个数据,如果
这里说,如果x和y独立同分布(i.i.d),那么VC bound的整个架构还是适用的。这里的
现在的学习流程图如下:
本小节测试:
这一小节我们更一般化地来讨论误差度量(error measure),记为
我们通常用平均的下图中的err来衡量
下面给出了一个使用0/1 error和squared error的例子(图中标有星号的时错误率最低的):
加入了误差度量的机器学习流程图如下:
然后是本小节测试:
这里使用指纹识别问题(比如说电脑有了指纹识别功能,只让电脑主人使用)来介绍误差度量的选择。在这个问题中可能出现两种错误:false accept(将入侵者误认为主人而让他使用电脑)和false reject(将主人误认为入侵者,而不让其使用)。
举个例子,将指纹识别系统应用于超市,如果系统认定某位顾客为常客,则给该顾客折扣;如果系统认定某位顾客不是常客,则不给该顾客折扣。在这个问题中,系统应该尽量避免的错误是fasle reject(发生这种错误可能导致常客不再来,给超市带来的损失远远大于给非常客打折的损失)。如果将指纹识别系统应用于CIA的机密文件权限,那系统应该尽量避免的则是false accept。
可以看到不同问题应该使用不同的误差度量方法。下面介绍了几种在设计机器学习算法时可能会用到的误差度量方法(记为
本节小测试:
本小节介绍weighted classification,这里的权重指的是犯错所带来的损失。例如前面的CIA例子中的false reject的权重为1,而false accept的权重为1000,该问题的
将基于损失权重的
当然,我们不会真的进行复制1000份的操作,而是做下面的两点:
本小节测试:
最后是本讲总结:
标签:
原文地址:http://blog.csdn.net/majordong100/article/details/51245522