1.非线性激活的重要性 如果神经元的输出是输入的线性函数,而线性函数之间的嵌套任然会得到线性函数。如果不加如飞西安新处理,那么最终得到的仍然是线性函数。 2.常用的非线性激活函数 ReLu的优点 运算非常简单快速 由于当输入大于0时,导数永远是1,可以避免梯度消失 当输入大于零时才有非零输出,而输入 ...
分类:
其他好文 时间:
2019-03-01 23:26:53
阅读次数:
317
一、简介 gbdt全称梯度下降树,在传统机器学习算法里面是对真实分布拟合的最好的几种算法之一,在前几年深度学习还没有大行其道之前,gbdt在各种竞赛是大放异彩。原因大概有几个,一是效果确实挺不错。二是即可以用于分类也可以用于回归。三是可以筛选特征。这三点实在是太吸引人了,导致在面试的时候大家也非常喜 ...
分类:
其他好文 时间:
2019-02-25 23:26:16
阅读次数:
590
写在前面的话: 在第一学期做项目的时候用到过相应的知识,觉得挺有趣的,就记录整理了下来,基于C/C++语言 原贴地址:https://helloacm.com/cc-linear-regression-tutorial-using-gradient-descent/ 前言 在机器学习和数据挖掘处理等 ...
分类:
其他好文 时间:
2019-02-24 10:17:06
阅读次数:
185
一、MSE 损失函数推导 前向传播过程: 梯度反向传播公式推导: 定义残差: 则 残差推导如下: 对于最后一层: 广义上,左边项(-(···))是定义的损失函数对其输入(即最后一层神经元值)的导数,右项是sigmoind求导,这两项都是根据实际使用可以替换的。 对于隐藏层: 若去掉下标i,则有 其中 ...
分类:
编程语言 时间:
2019-02-23 10:55:49
阅读次数:
263
caffe solver通过协调网络前向推理和反向梯度传播来进行模型优化,并通过权重参数更新来改善网络损失求解最优算法,而solver学习的任务被划分为:监督优化和参数更新,生成损失并计算梯度。caffe solver是caffe中的核心,它定义着整个模型如何运转,不管是命令行方式还是pycaffe ...
分类:
其他好文 时间:
2019-02-22 21:31:59
阅读次数:
807
梯度下降: 1,批量梯度(BGD),随机梯度下降法(SGD),小批量梯度下降法(MBGD)的区别 2,和最小二乘比较 1,梯度下降法需要选择步长,而最小二乘法不需要。 2,梯度下降法是迭代求解,最小二乘法是计算解析解。 3,最小二乘仅适用数据量较小的情况下 3,和牛顿法比较 1,梯度下降法是梯度求解 ...
分类:
其他好文 时间:
2019-02-22 10:39:45
阅读次数:
184
一. 正则化概述 正则化(Regularization),L1和L2是正则化项,又叫做罚项,是为了限制模型的参数,防止模型过拟合而加在损失函数后面的一项。 机器学习中几乎都可以看到损失函数后面会添加一个额外项,常用的额外项一般有两种,一般英文称作?1-norm和?2-norm,中文称作L1正则化和L ...
分类:
其他好文 时间:
2019-02-19 18:51:03
阅读次数:
221
```
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets.samples_generator import make_classification def initialize_params(dims):... ...
分类:
编程语言 时间:
2019-02-18 14:16:52
阅读次数:
191
首先明白一个概念,什么是逻辑回归;所谓回归就是拟合,说明x是连续的;逻辑呢?就是True和False,也就是二分类;逻辑回归即使就是指对于二分类数据的拟合(划分)。 此时采用的sigmoid函数: sigmoid函数的精妙之处就在于在x=0点出是一个分水岭,x>0y值去1,x<0 y值取0。所以si... ...
分类:
其他好文 时间:
2019-02-17 12:39:51
阅读次数:
336
在BBR之前,业内已经逐渐学会如何判断网络拥塞并且用于TCP拥塞控制了。 再次重申,我鄙视并且非常恶心TCP! 我本来想看看CDG算法究竟是个什么东西,无奈并没有发现什么资料,所以,就像BBR一样,只能由我来写,我不希望到时候再搜索CDG的资源,都是我写的了,请注意,CDG不是腾讯的CDG,而是CA ...
分类:
编程语言 时间:
2019-02-17 10:46:59
阅读次数:
268