首先我们通过三种途径来认识bias and variance ,三种途径是:直观上的、图形上的、数学定义上的。
直观上的定义:
Error due to Bias:真实值与预测值之间的差异。
Error due to Variance : 在给定模型数据上预测的变化性,你可以重复整个模型构建过程很多次,variance 就是衡量每一次构建模型预测相同数据的变化性。
图形上的理解:
如图所示,图形中心是模型完美正确预测数据值,当我们远离中心预测越来越差,我们可以重复整个模型构建过程多次,通过每一次命中图形来表示bias and variance
数学上定义:
通过covariate X 预测 Y ,我们假设存在如下关系:
Y = f(X) + ? 满足正态分布均值为0
方差σ?
模型预测错误定义为:
bias and variance 的折衷在机器学习中很重要,如果我们模型太简单 则有大的 bias 但是比较小的variance 这时处于模型under-fitting 的状态。
如果模型过于复杂,则bias 较小,但是variance 较大 ,这时模型处于over-fitting 的状态。
解决模型over-fitting 方法有: cross-validation 、最常用的方法是正则化(regularization)
参考资料:http://scott.fortmann-roe.com/docs/BiasVariance.html
原文地址:http://blog.csdn.net/huruzun/article/details/41457433