开篇高能预警!本文前置知识:1、理解特征函数/能量函数、配分函数的概念及其无向图表示,见《逻辑回归到受限玻尔兹曼机》和《解开玻尔兹曼机的封印》;2、理解特征函数形式的逻辑回归模型,见《逻辑回归到最大熵模型》。从逻辑回归出发,我们已经经过了朴素贝叶斯、浅层神经网络、最大熵等分类模型。显然,分类模型是不考虑时间的,仅仅计算当前的一堆特征对应的类别。因此,分类模型是“点状”的模型。想一下,如果我们有一个
分类:
其他好文 时间:
2020-12-29 11:48:54
阅读次数:
0
CV: 1. 常见的模型加速方法 2. 目标检测里如何有效解决常见的前景少背景多的问题 3. 目标检测里有什么情况是SSD、YOLOv3、Faster R-CNN等所不能解决的,假设网络拟合能力无限强 4. ROIPool和ROIAlign的区别 5. 介绍常见的梯度下降优化方法 6. Detect ...
分类:
编程语言 时间:
2020-08-04 09:55:07
阅读次数:
91
1、最大熵模型 最大熵模型描述的是这么一种情况,即在有约束条件的情况下,如何得到最好的模型。我们先来考虑如果没有约束的条件下,如何获得最好的模型,举个栗子,比如一个骰子,有6个面,转一次,求每个面的概率,根据经验,每个面的概率是1/6,这其实就是我们让整个系统熵最大。 那么什么是在有约束条件下概率最 ...
分类:
其他好文 时间:
2020-05-23 13:16:03
阅读次数:
54
1.统计学习 统计学习的对象:(1)data : 计算机及互联网上的各种数字、文字、图像、视频、音频数据以及它们的组合。(2)数据的基本假设是同类数据具有一定的统计规律性。统计学习的目的:用于对数据(特别是未知数据) 进行预测和分析。统计学习的方法:(1)分类: 监督学习无监督学习半监督学习强化学习 ...
分类:
其他好文 时间:
2020-01-25 19:28:51
阅读次数:
155
逻辑回归 sigmoid函数=$\sigma(x)=\frac{1}{1+e^{ x}}=\frac{e^{x}}{1+e^{x}}$ 二项逻辑回归模型 有如下条件概率分布,$w$内已经包含了偏置$b$: $$P(Y=1|x)=\frac{\exp(w\cdot x)}{1+\exp(w\cdot ...
分类:
其他好文 时间:
2019-11-24 15:30:55
阅读次数:
75
1、似然函数 概率和似然的区别:概率是已知参数的条件下预测未知事情发生的概率,而似然性是已知事情发生的前提下估计模型的参数。我们通常都是将似然函数取最大值时的参数作为模型的参数。 那么为何要取似然函数取最大值的参数作为模型的参数?我们基于这样的假设:对于已经发生的事情,在同样条件下再次发生的概率就会 ...
分类:
其他好文 时间:
2019-08-29 20:05:33
阅读次数:
101
今天面试被问到LR的算法的梯度和正则化项,自己不太理解,所以找了一些相关资料,发现LR的算法在梯度下降,正则化和sigmoid函数方面都有很深的研究,期间也发现一些比较好的资料,记录一下。 这篇论文推导了LR和最大熵模型之间的关系 http://www.win vector.com/dfiles/L ...
分类:
其他好文 时间:
2019-08-26 21:11:02
阅读次数:
105
拉格朗日对偶性 拉格朗日对偶性 在约束最优化问题中,常常利用拉格朗日对偶性(Lagrange duality)将原始问题转为对偶问题,通过解对偶问题而得到原始问题的解。例如,最大熵模型与支持向量机。 原始问题 假设f(x),ci(x),hj(x)是定义在Rn上的连续可微函数。考虑约束最优化问题,即原 ...
分类:
其他好文 时间:
2019-08-21 11:47:08
阅读次数:
77
1.熵与最大熵原理 熵是随机变量不确定性的度量,不确定性越大,熵值就越大;若随机变量退化成定值,熵为0。均匀分布是“最不确定”的分布 假设离散随机变量X的概率分布为P(x),则其熵为: 联合熵和条件熵 两个随机变量的X,Y的联合分布,可以形成联合熵,用H(X,Y)表示 条件熵H(X|Y) = H(X ...
分类:
其他好文 时间:
2019-08-13 17:15:46
阅读次数:
90