1、ResNet是一种残差网络,咱们可以把它理解为一个子网络,这个子网络经过堆叠可以构成一个很深的网络。 2、但是根据实验表明,随着网络的加深,优化效果反而越差,测试数据和训练数据的准确率反而降低了。这是由于网络的加深会造成梯度爆炸和梯度消失的问题。 目前针对这种现象已经有了解决的方法:对输入数据和 ...
分类:
Web程序 时间:
2020-07-21 01:06:41
阅读次数:
91
梯度下降法主要分为三种, 梯度下降法 随机梯度下降 小批量梯度下降 下面分别来介绍一下,这样更加有助于理解它们之间的联系。 梯度下降法 梯度下降使用整个训练数据集来计算梯度,因此它有时也被称为批量梯度下降 下面就以均方误差讲解一下,假设损失函数如下: 其中 是预测值, 是真实值,那么要最小化上面损失 ...
分类:
其他好文 时间:
2020-07-20 22:40:33
阅读次数:
75
Nick-Atom AI炼金术士一枚, 主攻推荐/广告/NLP 一张图搞定人生系列: 1, 看趋势(图2) loss往上走甚至产生小山包(黄线) or 下降的特别急(绿线), 后几个epoch没变化, lr过高, 调低。 绿线还可以考虑lr decay loss趋近于线性(蓝线), lr过低, 调高 ...
分类:
其他好文 时间:
2020-07-17 11:23:42
阅读次数:
97
提升的概念 提升算法 提升算法推导 梯度提升决策树 决策树的描述 正则项的定义 目标函数的计算 目标函数继续化简 子树划分 Adaboost 误差上限 方差与偏差 Bagging能够减少训练方差,对于不剪枝的决策树、神经网络等学习器有良好的集成效果 Boosting减少偏差,能够基于泛化能力较弱的学 ...
分类:
其他好文 时间:
2020-07-15 01:15:23
阅读次数:
72
关于MixNet:1.NAS:神经架构搜索,从定义一组神经网络可能会用到的“建筑模块”开始,NAS算法用一个RNN做控制器,从这些模块中挑选,然后将它们放在一起,创造某种端到端的架构(好坏取决于选择的模块和它们之间构建的连接);接着训练这个网络,让其收敛,得到验证集上的准确率,通过策略梯度更新控制器 ...
分类:
Web程序 时间:
2020-07-14 21:52:12
阅读次数:
91
numpy、tensorflow手写SkipGram(没有negative sampling)和cbow: http://www.claudiobellei.com/2018/01/07/backprop-word2vec-python/ 这两种实现都需要动手算梯度,手动实现梯度下降,且不没有使用n ...
分类:
其他好文 时间:
2020-07-10 18:47:16
阅读次数:
53
回顾梯度下降和正规方程:https://www.cnblogs.com/ssyfj/p/12788147.html 一:正规方程解法 (一)加载数据 import numpy as np import matplotlib.pyplot as plt def loadDataSet(filename ...
分类:
其他好文 时间:
2020-07-10 00:42:42
阅读次数:
227
1.激活函数 1 #激活函数 2 z1=torch.linspace(-100,100,10) 3 print(z1) #tensor([-100.0000, -77.7778, -55.5556, -33.3333, -11.1111, 11.1111, 33.3333, 55.5556, 77. ...
分类:
其他好文 时间:
2020-07-10 00:23:25
阅读次数:
109
目录 定义网络 梯度反向传播 梯度更新 面试时的变相问法 参考资料 BPTT(back-propagation through time)算法是常用的训练RNN的方法,其实本质还是BP算法,只不过RNN处理时间序列数据,所以要基于时间反向传播,故叫随时间反向传播。 BPTT算法在吴恩达和李宏毅等教授 ...
分类:
其他好文 时间:
2020-07-09 22:05:20
阅读次数:
123
首先要明确什么是直方图 直方图反应图像灰度的分布情况,属于统计学特征。同样的,图像的梯度方向(0-180°)也可以做成直方图形式,类似的数据结构都可以制作成直方图 什么是直方图均衡化 直方图均衡化是一种提高灰度图像对比度的方法,将图像灰度从一个分布映射到另一个分布上 直方图均衡化由概率密度函数积分推 ...
分类:
其他好文 时间:
2020-07-08 22:48:56
阅读次数:
68