拉格朗日对偶性 拉格朗日对偶性 在约束最优化问题中,常常利用拉格朗日对偶性(Lagrange duality)将原始问题转为对偶问题,通过解对偶问题而得到原始问题的解。例如,最大熵模型与支持向量机。 原始问题 假设f(x),ci(x),hj(x)是定义在Rn上的连续可微函数。考虑约束最优化问题,即原 ...
分类:
其他好文 时间:
2019-08-21 11:47:08
阅读次数:
77
1.熵与最大熵原理 熵是随机变量不确定性的度量,不确定性越大,熵值就越大;若随机变量退化成定值,熵为0。均匀分布是“最不确定”的分布 假设离散随机变量X的概率分布为P(x),则其熵为: 联合熵和条件熵 两个随机变量的X,Y的联合分布,可以形成联合熵,用H(X,Y)表示 条件熵H(X|Y) = H(X ...
分类:
其他好文 时间:
2019-08-13 17:15:46
阅读次数:
90
从随机过程的熵率和马尔科夫稳态过程引出的一些思考 - 人生逃不过一场马尔科夫稳态 ...
分类:
其他好文 时间:
2019-08-10 12:04:42
阅读次数:
149
ID3的决策树中主要使用了香农熵的概念,熵表示了数据的混乱程度,熵的值越大表示混乱程度越大 熵的计算公式为 H = -∑p(xi)log(P(xi)),表示P(xi)表示xi这种情况出现的概率 每次对于特征的选择流程如下,先求出原本数据集的熵值,然后对于每个特征,以此特征作为分类标准之后再进行剩余数 ...
分类:
其他好文 时间:
2019-08-08 16:13:11
阅读次数:
96
作者:尘心链接:https://zhuanlan.zhihu.com/p/76003775 简述 文本分类在文本处理中是很重要的一个模块,它的应用也非常广泛,比如:垃圾过滤,新闻分类,词性标注等等。它和其他的分类没有本质的区别,核心方法为首先提取分类数据的特征,然后选择最优的匹配,从而分类。但是文本 ...
分类:
其他好文 时间:
2019-08-04 15:17:22
阅读次数:
123
目录 产生背景 工作原理 参考资料 产生背景 假设选用softmax交叉熵训练一个三分类模型,某样本经过网络最后一层的输出为向量x=(1.0, 5.0, 4.0),对x进行softmax转换输出为: 假设该样本y=[0, 1, 0],那损失loss: 按softmax交叉熵优化时,针对这个样本而言, ...
分类:
其他好文 时间:
2019-07-27 12:43:48
阅读次数:
130
SoftMax回归 对于MNIST中的每个图像都是零到九之间的手写数字。所以给定的图像只能有十个可能的东西。我们希望能够看到一个图像,并给出它是每个数字的概率。 例如,我们的模型可能会看到一个九分之一的图片,80%的人肯定它是一个九,但是给它一个5%的几率是八分之一(因为顶级循环),并有一点概率所有 ...
分类:
其他好文 时间:
2019-07-24 13:46:38
阅读次数:
201
概率图模型构建了这样一幅图,用观测节点表示观测到的数据,用隐含节点表示潜在的知识,用边来描述知识与数据的相互关系,最后基于这样的关系图获得一个概率分布,非常“优雅”地解决的问题。 概率图模型包括了朴素贝叶斯模型、最大熵模型、隐马尔可夫模型、条件随机场、主题模型等。主要在NLP领域用的较为广泛 1 概 ...
分类:
其他好文 时间:
2019-07-21 01:49:40
阅读次数:
146
最大熵模型(maximum entropy model, MaxEnt)也是很典型的分类算法了,它和逻辑回归类似,都是属于对数线性分类模型。在损失函数优化的过程中,使用了和支持向量机类似的凸优化技术。而对熵的使用,让我们想起了决策树算法中的ID3和C4.5算法。理解了最大熵模型,对逻辑回归,支持向量... ...
分类:
其他好文 时间:
2019-07-19 18:26:51
阅读次数:
102
熵,信息熵在机器学习和深度学习中是十分重要的。那么,信息熵到底是什么呢? 首先,信息熵是描述的一个事情的不确定性。比如:我说,太阳从东方升起。那么这个事件发生的概率几乎为1,那么这个事情的反应的信息量就会很小。如果我说,太阳从西方升起。那么这就反应的信息量就很大了,这有可能是因为地球的自转变成了自东 ...
分类:
其他好文 时间:
2019-07-13 10:53:54
阅读次数:
121