一. 正则化概述 正则化(Regularization),L1和L2是正则化项,又叫做罚项,是为了限制模型的参数,防止模型过拟合而加在损失函数后面的一项。 机器学习中几乎都可以看到损失函数后面会添加一个额外项,常用的额外项一般有两种,一般英文称作?1-norm和?2-norm,中文称作L1正则化和L ...
分类:
其他好文 时间:
2019-02-19 18:51:03
阅读次数:
221
1. 优化目标 在监督学习中,许多学习算法的性能都非常类似,因此,重要的不是你该选择使用学习算法A还是学习算法B,而更重要的是,应用这些算法时,所创建的大量数据在应用这些算法时,表现情况通常依赖于你的水平。比如:你为学习算法所设计的特征量的选择,以及如何选择正则化参数,诸如此类的事。还有一个更加强大 ...
分类:
系统相关 时间:
2019-02-05 22:21:14
阅读次数:
223
原文链接:https://developers.google.com/machine-learning/crash-course/regularization-for-simplicity 1- L? 正则化 泛化曲线:显示的是训练集和验证集相对于训练迭代次数的损失。 如果说某个模型的泛化曲线显示: ...
分类:
其他好文 时间:
2019-01-22 00:32:45
阅读次数:
254
损失函数,代价函数,目标函数区别 损失函数:定义在单个样本上,一个样本的误差。 代价函数:定义在整个训练集上,所有样本的误差,也就是损失函数的平均。 目标函数:最终优化的函数。等于经验风险+结构风险(Cost Function+正则化项)。 目标函数和代价函数的区别还有一种通俗的区别: 目标函数最大 ...
分类:
其他好文 时间:
2019-01-19 00:05:04
阅读次数:
193
1.最小二乘法解的的推导,几何意义解释最小二乘法 2.从概率的角度解释最小二乘法 结论:最小二乘法等价于最大似然估计(条件是噪音需要满足高斯分布) 3. L2正则化 岭回归 4. 从概率的角度看正则化 结论:正则化之后的最小二乘法等价于最大后验概率估计(条件是噪音和先验分布都满足高斯分布) ...
分类:
其他好文 时间:
2019-01-15 17:12:00
阅读次数:
233
1.数据集的划分: 训练集(train), 交叉验证集(dev):用来选取最好的模型,选择最好的算法(需要验证的可能是很多个算法) 测试集(test):用来评估 有时候不需要无偏估计的时候,就只需要训练集和验证集 确保dev ,train来自同一个分布 划分:70%train dev 30%test ...
分类:
其他好文 时间:
2019-01-15 14:10:30
阅读次数:
239
主要内容: 一、dropout正则化的思想 二、dropout算法流程 三、dropout的优缺点 一、dropout正则化的思想 在神经网络中,dropout是一种“玄学”的正则化方法,以减少过拟合的现象。它的主要思想就是:在训练神经网络的每一轮迭代中,随机地关闭一些神经元,以此降低神经网络的复杂 ...
分类:
其他好文 时间:
2019-01-10 22:59:11
阅读次数:
167
1.L2正则化(岭回归) 1.1问题 想要理解什么是正则化,首先我们先来了解上图的方程式。当训练的特征和数据很少时,往往会造成欠拟合的情况,对应... ...
分类:
编程语言 时间:
2019-01-09 00:34:49
阅读次数:
264
""Image Style Transfer Using Convolutional Neural Networks" (Gatys et al., CVPR 2015)" . 复现这一篇论文中的代码 loss由三部分组成,内容loss,风格loss,正则化loss,其中风格loss使用gram矩阵 ...
分类:
其他好文 时间:
2019-01-05 15:06:45
阅读次数:
233
Logistic回归一、概述 1. Logistic Regression 1.1 线性回归 1.2 Sigmoid函数 1.3 逻辑回归 1.4 LR 与线性回归的区别 2. LR的损失函数 3. LR 正则化 3.1 L1 正则化 3.2 L2 正则化 3.3 L1正则化和L2正则化的区别 4. ...
分类:
其他好文 时间:
2018-12-31 22:44:04
阅读次数:
265