常量因子和算法复杂度: 对于算法的时间和空间性质,最重要的是其量级和趋势,这些是算法代价的主要部分,而代价函数的常量因此可以忽略不计。例如,可以认为3n²和100n²属于同一个量级,如果两个算法处理同样规模实例的代价分别为这两个函数,就可以认为它们的代价“差不多”。基于这样的考虑,人们提出描述算法性 ...
分类:
其他好文 时间:
2018-10-02 17:23:36
阅读次数:
1808
主要内容: 一.初始化参数 二.前向传播 三.计算代价函数 四.反向传播 五.更新参数(梯度下降) 一.初始化参数 二.前向传播 三.计算代价函数 四.反向传播 五.更新参数(梯度下降) ...
分类:
其他好文 时间:
2018-10-02 14:22:17
阅读次数:
156
1. 模型 逻辑回归的Model为:$ h_\theta(x)=\frac 1 {1+e^{ (\theta^Tx+b)}} $ 2.代价函数 针对一个样本的代价函数为: if y = 1 : $ cost(x)= log(h_\theta(x))$ if y = 0 : $ cost(x)= lo ...
分类:
编程语言 时间:
2018-09-28 00:09:19
阅读次数:
183
一.前言 在做神经网络的训练学习过程中,一开始,经常是喜欢用二次代价函数来做损失函数,因为比较通俗易懂,后面在大部分的项目实践中却很少用到二次代价函数作为损失函数,而是用交叉熵作为损失函数。为什么?一直在思考这个问题,这两者有什么区别,那个更好?下面通过数学的角度来解释下。 思考:我们希望我们损失函 ...
分类:
其他好文 时间:
2018-09-15 20:05:46
阅读次数:
468
1.不同的起始点,可能导致最后得到的局部最小值点不同。 2.同时更新: 以代价函数J(θ0,θ1)为例: 我们的目的就是要同时迭代更新θ0和θ1,直到下面这个式子收敛,这也是梯度下降法的核心 其中,j取值为0和1。 每次迭代的时候,我们需要同时更新θ1?,θ2?,...,θn,我个人的理解就是,先都 ...
分类:
其他好文 时间:
2018-08-29 16:53:50
阅读次数:
170
传统的GBDT是以CART作为基分类器,xgboost还支持线性分类器,这个时候XGBOOST相当于带L1和L2正则化的逻辑斯蒂回归(分类问题)或者线性回归(回归问题)。传统的GBDT在优化的hih只用到一阶导数信息,xgboost则对代价函数进行了二阶泰勒展开,同时用到了一阶和二阶导数。顺便提一下 ...
分类:
其他好文 时间:
2018-08-27 11:27:56
阅读次数:
188
首先给出结论:损失函数和代价函数是同一个东西,目标函数是一个与他们相关但更广的概念,对于目标函数来说在有约束条件下的最小化就是损失函数(loss function) 举个例子解释一下:(图片来自Andrew Ng Machine Learning公开课视频) 上面三个图的函数依次为 , , 。我们是 ...
分类:
其他好文 时间:
2018-08-17 11:16:13
阅读次数:
177
L1和L2的差别,为什么一个让绝对值最小,一个让平方最小,会有那么大的差别呢?我看到的有两种几何上直观的解析: 1)下降速度: 我们知道,L1和L2都是规则化的方式,我们将权值参数以L1或者L2的方式放到代价函数里面去。然后模型就会尝试去最小化这些权值参数。而这个最小化就像一个下坡的过程,L1和L2 ...
分类:
其他好文 时间:
2018-08-07 15:06:30
阅读次数:
192
Bisecting KMeans Bisecting KMeans算法的主要思想是:首先将所有点作为一个簇,然后将该簇一分为二,之后选择能最大限度降低聚类代价函数(也就是误差平方和)的簇划分为两个簇,以此进行下去,直到簇的数目等于用户给定的数目k为止。 Gaussian Mixture Model ...
分类:
编程语言 时间:
2018-08-02 02:03:02
阅读次数:
169
逻辑回归的基本过程:a建立回归或者分类模型 >b 建立代价函数 > c 优化方法迭代求出最优的模型参数 >d 验证求解模型的好坏。 1.逻辑回归模型: 逻辑回归(Logistic Regression):既可以看做是回归算法,也可以看做是分类算法。通常作为分类算法,一般用于解决二分类问题。 线性回归 ...
分类:
其他好文 时间:
2018-07-19 13:38:19
阅读次数:
232