正则化 --在原有损失函数的基础上加上一个正则化项 通常用到的有均方根误差rmse和平均绝对误差mae 通过限制参数过多或者过大,避免模型更加复杂,简单来说就是降低模型的泛化错误率,避免模型过拟合 L1与L2的区别 L1可以实现让参数矩阵稀疏, 且L1正则化的损失函数不不是连续可导的, L2也称岭回 ...
分类:
其他好文 时间:
2020-03-20 17:05:12
阅读次数:
74
具体公式和思想可以看 https://www.cnblogs.com/itmorn/p/11254448.html 先说结果:label平滑可以减小过拟合 说白了,这个平滑就是一定程度缩小label中min和max的差距。损失函数实际上就是鼓励模型去接近对应的label,越接近loss越小,巴不得l ...
分类:
其他好文 时间:
2020-03-18 22:11:45
阅读次数:
102
1 ResNet 1.1 Why 当模型层数增加到某种程度,模型的效果将会不升反降,发生退化。 不是过拟合:训练误差也大 不是梯度消失/爆炸:BN基本解决了这个问题 问题:堆加新的层后,这些层很难做到恒等映射,由于非线性激活。 1.2 解读 把网络设计为H(x) = F(x) + x,即直接把恒等映... ...
分类:
Web程序 时间:
2020-03-17 21:06:35
阅读次数:
110
支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小原理基础上。 置信风险: 分类器对 未知样本进行分类,得到的误差。经验风险: 训练好的分类器,对训练样本重新分类得到的误差。即样本误差结构风险:置信风险 + 经验风险结构风险最小化就是为了防止过拟合而提出来的策略,贝叶斯估计中最大后验概率 ...
分类:
其他好文 时间:
2020-03-14 11:12:47
阅读次数:
109
首先剪枝(pruning)的目的是为了避免决策树模型的过拟合。因为决策树算法在学习的过程中为了尽可能的正确的分类训练样本,不停地对结点进行划分,因此这会导致整棵树的分支过多,也就导致了过拟合。决策树的剪枝策略最基本的有两种:预剪枝(pre-pruning)和后剪枝(post-pruning): 预剪 ...
分类:
其他好文 时间:
2020-03-12 14:43:02
阅读次数:
72
第一步,先测试出最基本的比较合适的baseline模型 测试最基本的baseline模型如resnet50, efficientnet, senet等等模型,得到在暂时不进行数据增强的情况下得到一个较为出色的结果的模型(验证结果比较高同时能够对数据适当的过拟合)。这一步自己设定最为直观的Loss,o ...
分类:
其他好文 时间:
2020-03-10 21:45:18
阅读次数:
45
2.1 经验误差与过拟合 错误率:错分样本的占比 精度:分对样本的占比,与错误率是互补的。 误差:样本真实输出与预测输出之间的差异。学习器在训练集上的误差称为训练误差或经验误差,在新样本上的误差称为泛化误差。 由于事先并不知道新样本的特征,我们只能努力使经验误差最小化; 很多时候虽然能在训练集上做到 ...
分类:
其他好文 时间:
2020-03-05 01:17:02
阅读次数:
111
人类的学习:经验→(大脑思考)→规律 机器的归纳学习:数据→(学习算法)→模型 所以说学习算法是一个模拟人类大脑思考的过程。 1)数据: 数据存储于计算机中,以训练集D的形式存在,D={x1 ,x2 ,... ,xm}其中x1~m为m个样本(示例)。 样本x i ={xi1,xi2,...,xid} ...
分类:
其他好文 时间:
2020-03-02 12:47:17
阅读次数:
65
初尝过拟合 猫狗大战数据集 这是kaggle上一个非常经典的二分类图像数据集,训练集包括25000张猫和狗的图片及其标签,测试集则是12500张未标签图片,数据下载地址。不过这个网址比较远古,无法提交自己训练的答案,可以到新的(~~虽然也不新了~~)比赛链接提交 将训练数据按类别分开整理成如下结构 ...
分类:
其他好文 时间:
2020-03-02 01:01:39
阅读次数:
77
4. XGBoost的优势XGBoost算法可以给预测模型带来能力的提升。当我对它的表现有更多了解的时候,当我对它的高准确率背后的原理有更多了解的时候,我发现它具有很多优势: 4.1 正则化标准GBM的实现没有像XGBoost这样的正则化步骤。正则化对减少过拟合也是有帮助的。实际上,XGBoost以 ...
分类:
其他好文 时间:
2020-02-28 21:08:07
阅读次数:
102