标签:变量 大小 str 最大 相对 深度学习 衡量 效果 互信
熵度量了事物的不确定性,越不确定的事物,它的熵就越大。在没有外部环境的作用下,事物总是向着熵增大的方向发展,所以熵越大,可能性也越大。
\[
H(X)=-\sum_{i=1}^np_{(i)}logp_{(i)}
\]
X确定时,Y的不确定性度量。
在X发生是前提下,Y发生新带来的熵。
\[
H(Y|X)=H(X,Y)-H(X)=-\sum_{x,y}p(x,y)logp(y|x)
\]
(X,Y)在一起时的不确定性度量
\[
H(X,Y)=-\sum_{x,y}p(x,y)logp(x,y)
\]
表示两个变量X与Y是否有关系,以及关系的强弱。
\[
I(X,Y)=∫_X∫_YP(X,Y)log\frac{P(X,Y)}{P(X)P(Y)}
\]
\[
I(X,Y)=H(Y)-H(Y|X)
\]
\[
I(X,Y)=H(Y)+H(X)-H(X,Y)
\]
可以看出,I(X,Y)可以解释为由X引入而使Y的不确定度减小的量,这个减小的量为H(Y|X)。所以,如果X,Y关系越密切,I(X,Y)就越大,X,Y完全不相关,I(X,Y)为0,所以互信息越大,代表这个特征的分类效果越好。
p与q不相似的度量
\[
KL(p||q)=-\sum_{x}p(x)log\frac{q(x)}{p(x)}
\]
衡量p与q的相似性,常常用在深度学习中的分类的损失函数(深度学习中回归任务的损失主要是最小二乘法)。p是真实概率,q是预测概率
\[
H(p,q)=-\sum_{x}p(x)logq(x)
\]
\[
KL(p||q)=H(p,q)-H(p)
\]
标签:变量 大小 str 最大 相对 深度学习 衡量 效果 互信
原文地址:https://www.cnblogs.com/huangyc/p/9734719.html