需求 占内存太大:但是没有想明白哪里占?参数? 那就计算一下参数:每个特征哈希出多少个结果 常见方法 Pruning(修剪): 因为神经网络很多权重几乎为0,这类参数作用不大,部分参数删掉也不影响模型预测效果 Weight Factorization(权重分解):权重矩阵可以进行低秩矩阵分解,即lo ...
分类:
其他好文 时间:
2021-04-09 13:34:22
阅读次数:
0
损失函数 总损失定义为: yi为第i个训练样本的真实值 h(xi)为第i个训练样本特征值组合预测函数 又称最小二乘法 正规方程 理解:X为特征值矩阵,y为目标值矩阵。直接求到最好的结果 缺点:当特征过多过复杂时,求解速度太慢并且得不到结果 其中y是真实值矩阵,X是特征值矩阵,w是权重矩阵 对其求解关 ...
分类:
其他好文 时间:
2021-01-25 11:38:16
阅读次数:
0
背景 了解深度学习中的梯度爆炸与消失的原因,及如何处理梯度爆炸与消失。 梯度消失 梯度消失是激活函数和权重矩阵初始化值,这两个因素决定的。 sigmoid函数,求导的最大值为0.25 根据链式求导法则:导数小于0.25,如果初始化的W值,再小于1,这样逐个相乘后,会导致偏差为0,最终导致网路中的参数 ...
分类:
其他好文 时间:
2020-06-24 17:49:19
阅读次数:
48
最近一个月项目好忙,终于挤出时间把这篇 BP 算法基本思想写完了,公式的推导放到下一篇讲吧。 一、神经网络的代价函数 神经网络可以看做是复杂逻辑回归的组合,因此与其类似,我们训练神经网络也要定义代价函数,之后再使用梯度下降法来最小化代价函数,以此来训练最优的权重矩阵。 1.1 从逻辑回归出发 我们从 ...
分类:
编程语言 时间:
2020-06-20 00:46:05
阅读次数:
98
1.逻辑回归是怎么防止过拟合的?为什么正则化可以防止过拟合?(大家用自己的话介绍下) ①逻辑回归是利用正则化来防止过拟合的; ②因为正则化参数设置得足够大,权重矩阵被设置为接近于0的值,那么一些影响不大的因素就可以降低到0,则忽略不计,因此就可以让模型复杂度降低,从而防止过拟合。 2.用logift ...
分类:
其他好文 时间:
2020-04-26 19:15:56
阅读次数:
85
实质理解: 训练过程: CNN在做卷积的时候,每一层的输出(可理解为形成的高维特征向量)是通过卷积的前向传播算法和反向传播算法(也就是梯度下降算法),结合真实的标签(前向传播结果与真实标签做误差), 将前向传播的结果无限逼近具有真实标签,在此过程中不断的更新权重,形成具有真实标签类别信息的权重矩阵。 ...
分类:
其他好文 时间:
2020-03-23 20:35:15
阅读次数:
83
空间权重矩阵的那些事(八)-球面距离权重矩阵 前段时间有人向我咨询了根据经纬度计算球面距离的方法,希望我出一篇文章,所以就有了这篇文章。必要文件可通过后台回复「地理经纬度」获取。 我首先想到的是matlab的「jplv7」工具箱里的「distance」函数,下面是具体的程序内容: function ...
分类:
其他好文 时间:
2020-03-08 20:02:57
阅读次数:
79
1、L 层神经网络正则化: (1)L2 正则化: (2)为什么正则化可以避免过拟合? 当 lambda 足够大时,最小化 J 时,就会使得权重矩阵 w 趋近于0,神经网络简化为高偏差状态: lambda 较大,w 较小,由 z = w * a + b,z 也较小,以 tanh 函数为例: 当 z 在 ...
分类:
其他好文 时间:
2019-11-09 00:43:36
阅读次数:
125
Attentional Pooling for Action Recognition 简介 这是一篇NIPS的文章,文章亮点是对池化进行矩阵表示,使用二阶池的矩阵表示,并将权重矩阵进行低秩分解,从而使分解后的结果能够自底向上和自顶向下的解释,并巧用attention机制来解释,我感觉学到了很多东西, ...
分类:
其他好文 时间:
2019-10-27 14:42:56
阅读次数:
341
给一个权重的vector,让你根据权重的概率返回值,返回的值是这些权重的索引。 比如给你一个[1,2]的权重矩阵,1/3的概率返回0,2/3的概率返回1。 等概率函数random只能等概率的一系列数,所以需要将权重矩阵进行累加,即[1,2]变成[1,3],这样如果你用random生成的等概率数是0, ...
分类:
其他好文 时间:
2019-08-04 16:50:09
阅读次数:
69