过拟合与欠拟合

时间：2019-07-23 00:14:20 阅读：178 评论：0 收藏：0 [点我收藏+]

1. 过拟合

过拟合是指在模型的训练阶段过分拟合训练数据的特征，模型的训练数据上具有较小的误差。数据中的噪声也有可能被模型所学习，使得模型的泛化性能较差。

通常导致过拟合产生的原因包括：

(1). 目标函数中没有相应的正则化项作为惩罚项, 常用的正则化项包括L₁ 和L₂，其中L₁约束能够学习出稀疏的模型从而能够达到特征选择的效果；对于L₂约束则使得模型在各特征上的参数都比较小，控制每个特征对模型预测结果的影响，在一定程度上减少异常值（噪声）对模型性能的影响，提高模型的泛化性能；

(2). 模型训练迭代次数过多，导致训练误差越来越小，模型对训练数据的拟合程度过高而泛化性能下降，可以适当减少训练次数；

(3). 训练数据太少，模型容易达到对训练数据的最佳拟合，可以适当增加训练数据的数量(源头采集新数据，生成新数据，重采样技术)；

(4). 数据维度过高，模型太过复杂，可以利用降维技术减少数据维度；

(5). 等等。

2. 欠拟合

欠拟合与过拟合相反，它是指模型对训练数据的描述能力较差，训练误差大。

欠拟合产生的原因包括：

(1). 数据维度过低，可以通过特征组合得到更多的新特征；

(2). 正则化项的惩罚因子过大，适当降低惩罚因子的大小；

(3). 训练次数太少，目标函数尚未收敛；

(4). 等等。

原文地址：https://www.cnblogs.com/sasworld/p/11229257.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

周排行