1. Bias-Variance Decomposition irreducible error无法被减小,而reducible error可以通过对model的调整将其最小化 2. 一般情况下而言,model越复杂,bias越小,而variance越高,故而我们要找到一个平衡使MSE最小 3. c ...
分类:
其他好文 时间:
2020-02-25 20:29:25
阅读次数:
72
线性分类器:通过线性映射,将数据分到对应的类别中 ①线性函数:f(xi?, W, b)= W * xi ?+ b W为权值(weights),b为偏移值(bias vector),xi为数据 假设每个图像数据被拉长为一个长度为D的列向量,其大小为[D x 1];W是大小为[K x D]的矩阵,b是大 ...
分类:
其他好文 时间:
2020-01-20 22:24:09
阅读次数:
71
Bias-variance 分解是机器学习中一种重要的分析技术。 给定学习目标和训练集规模,它可以 把一种学习算法的期望误差分解为三个非负项的和,即本真噪音noise、bias和 variance noise 本真噪音是任何学习算法在该学习目标上的期望误差的下界; ( 任何方法都克服不了的误差) b ...
分类:
其他好文 时间:
2020-01-18 10:41:06
阅读次数:
87
第一种是差分 对线上干扰抵抗能力好,但对BIAS上的噪声没办法, 第二种貌似对BIAS上噪声有一定消除作用。 想法不错,回头试验一下。 挺不错。我用的是单端的,第二种的一半。 第二种不靠谱,还不如单端。MTK已经弃用了。 发表于 2013-2-2 10:48:08 | 只看该作者 |只看大图 [复制 ...
分类:
其他好文 时间:
2020-01-11 18:47:54
阅读次数:
91
一、The Problem of Overfitting 欠拟合(high bias):模型不能很好地适应训练集; 过拟合(high variance):模型过于强调拟合原始数据,测试时效果会比较差。 处理过拟合: 1、丢弃一些特征,包括人工丢弃和算法选择; 2、正则化:保留所有特征,但减小参数的值 ...
分类:
其他好文 时间:
2020-01-01 23:59:17
阅读次数:
167
1.作用 L2的作用是防止参数太大。 2.求导过程 Wij是参数矩阵 假设神经网络表达式如下 使用绝对值损失,对应的y'是true label 加入L2损失,损失函数变为如下 按照链式求导法则,损失L对W的导数如下: 新参数的更新如下: 同理可以对bias有L2损失。 ...
分类:
其他好文 时间:
2019-12-25 17:53:29
阅读次数:
524
下文都将 简写成 Module: 就是我们常用的 类,你定义的所有网络结构都必须继承这个类。 Buffer: buffer和parameter相对,就是指那些不需要参与反向传播的参数 示例如下: Parameter: 是 ,也就是组成Module的参数。例如一个 通常由 和`bias require ...
分类:
其他好文 时间:
2019-12-20 22:35:01
阅读次数:
331
def weight_init(m): if isinstance(m, nn.Linear): nn.init.xavier_normal_(m.weight) nn.init.constant_(m.bias, 0) # 也可以判断是否为conv2d,使用相应的初始化方式 elif isinst ...
分类:
其他好文 时间:
2019-12-20 22:23:04
阅读次数:
93
6.3 preprocessing data数据预处理 https://scikit learn.org/stable/modules/preprocessing.html standardization or mean removal and variance scaling 归一化、正则化、标准 ...
分类:
其他好文 时间:
2019-12-16 17:46:37
阅读次数:
124
1、 偏差 方差分解是解释学习算法泛化性能的一种重要工具,试图对学习算法的期望泛化误差率(generalization error)进行分解。可以分解为三部分,偏差(bias)、方差(variance)和噪声(noise)。其中, 偏差:度量了模型的期望值和真实结果的偏离程度,刻画了模型本身的拟合能 ...
分类:
其他好文 时间:
2019-12-03 19:47:18
阅读次数:
176