3月机器学习在线班第六课笔记--信息熵与最大熵模型

时间：2015-07-19 17:48:12 阅读：300 评论：0 收藏：0 [点我收藏+]

标签：

原文：https://www.zybuluo.com/frank-shaw/note/108124

信息熵

信息是个很抽象的概念。人们常常说信息很多，或者信息较少，但却很难说清楚信息到底有多少。比如一本五十万字的中文书到底有多少信息量。直到1948年，香农提出了“信息熵”的概念，才解决了对信息的量化度量问题。（百度百科）

香农定义的信息熵的计算公式如下：

H (X) = - \sum p (x i) log (p (x i)) (i = 1, 2, \dots, n)

其中

I (x i) = - log p (x i)

其实这挺好理解：事件

为了更好的理解，我们举例说明：

随机变量为均匀分布

在《数学之美》中的例子：假如我错过了看世界杯，赛后我问一个知道决赛结果的观众“哪支球队是冠军？”他不愿意直接告诉我，而是让我猜，每猜一次需要1bit，他的回答是以下2个中的一个：是，否。假设我对这32支球队一无所知，即我认为每支球队获得冠军的概率是相等的，那么我至少需要付多少bit给他才能知道谁是冠军？
我把球队编号为1到32，然后使用折半查找法的原理（如：”冠军队在1-16吗？”）每一次就可以减少一半的队伍，这样只需要5次，就能够知道冠军球队。也就是说，谁是世界杯冠军这条信息的信息量只值5bit。代入计算公式，在这种情况下（等概率假设）得到的信息熵即为5bit。

课堂上，邹博老师给出的一个例子：

有五个硬币，四个等重，另外一个是假币所以质量相比其他4个要轻。我事先不知道关于任何硬币的信息（即认为每一个硬币是假币的概率都是1/5）。这个例子和之前的猜球队冠军有一些相似，我也是需要经过询问才能得到答案，且每问一次需要付1bit。但不同之处在于，现在我可以询问的对象变成了天平，天平每一次能够比较两堆硬币，且能够给出3个结果中的一个：左边比右边重，右边比左边重，两边同样重。问我至少需要付多少bit就能够确保知道哪个是假币？

我们通过自己的计算可知道，如果幸运的话我只需要1bit就能够把假币测出来（天平左右各两个硬币，结果等重，那么假币即为天平外的一个），但是通常情况下需要2bit才能知道假币。这个时候，会发现不能够按照之前的预测世界杯冠军的方式来计算信息熵了(按照之前的方法直接计算得到

H ( X ) H ( Y )

随机变量不再是均匀分布

有五个硬币，四个等重，另外一个是假币所以质量相比其他4个要轻。已知第一个硬币和第二个硬币是假硬币的概率为1/3，其他硬币为假硬币的概率为1/9。天平每一次能够比较两堆硬币，且能够给出3个结果中的一个：左边比右边重，右边比左边重，两边同样重。问我至少需要付多少bit就能够确保知道哪个是假币？
由于之前已经分析过，直接带入上面的计算公式即可得：

H ( X ) H ( Y ) = - ( 1 3 log 2 1 3 ) * 2 - (

在经典熵的定义式中，对数的底是2，单位为bit。在我们之后的例子中，为了方便分析使用底数e。如果底数为e，那么单位是nat(奈特)。重新写一遍信息熵的公式：

H (X) = - \sum p (x i) l n (p (x i)) (i = 1, 2, \dots, n)

信息熵的总体理解

从之前的分析可以看出，熵其实定义了一个函数（概率分布函数

让我们以较为熟悉的随机变量分布来举例说明信息熵：

两点分布的熵

假设两点分布中

H (X) = - \sum x \in X p (x) ln (p (x)) = - q ln q - (1 - q) ln (1

联合熵、条件熵和相对熵

之前定义了单个随机变量的熵，现在将定义推广到两个随机变量的情形。对于服从联合分布为

H (X, Y) = - \sum x \in X, y \in Y p (x, y) ln (p (x, y))

H (X, Y) = - E (log p (x, y)) .

定义：若

H (Y | X) = \sum x \in X p (x) H (Y | X = x) = - \sum

H (X, Y) = - \sum x \in X \sum y \in Y p (x, y) log

D (p | | q) = \sum x p (x) log p ( x ) q ( x ) =

互信息

互信息是一个随机变量包含另一个随机变量信息量的度量。互信息也是在给定另一个随机变量知识的条件下，原随机变量不确定度的缩减量。（为什么这么说，接下来会有解释。）
定义：考虑两个随机变量

I (X; Y) = \sum x \in X \sum y \in Y p (x, y) log p

熵与互信息的关系

可将互信息

I (X; Y) = \sum x \in X, y \in Y p (x, y) log p (

由于互信息的对称性，可得：

I (X; Y) = I (Y; X) = H (Y) - H (Y | X)

I (X; Y) = H (X) + H (Y) - H (X, Y)

I (X; Y) = H (X) - H (X | Y) I (X; Y) = H (Y) - H (Y | X)

最大熵模型

当我们需要对一个随机事件的概率分布做出预测的时候，我们的预测应当满足全部一致的条件，而对未知的情况不要做任何主观的假设。在这种情况下，概率分布最均匀，预测的风险最小。因为这个时候分布的信息熵是最大的，所以人们称满足上述条件要求的模型就是“最大熵模型”。“最大熵模型”的核心两点：1.承认已知事物（或知识）；2.对未知事物不做任何假设，没有任何偏见。 It agrees with everything that is known, but carefully avoids assuming anything that is not known.

我们常说，不要把所有的鸡蛋放在一个篮子里，其实就是最大熵原理的一个朴素说法，因为当我们遇到不确定性时，就要保留各种可能性。说白了，就是保留全部的不确定性，将风险降到最小。--摘自《Google黑板报》作者：吴军。

如何引入最大熵模型呢？我们使用NLP（自然语言处理）中的例子来说明：
“学习”这个词可能是动词，也可能是名词。另一方面，“学习”这个词可以被标为主语、谓语、宾语、定语。
令

p (x 1) + p (x 2) = 1 \sum i = 1 4 p (y i) = 1

p (x 1) = p (x 2) = 0.5 p (y 1) = p (y 2) = p (y 3) = p (y 4) = 0.25

p (x 1) = p (x 2) = 0.5 p (y 1) = p (y 2) = p (y 3) = 0.95 3

p (y 2 | x 1) = 0.95

我们要一个
$p (x 1) + p (x 2) = 1 \sum i = 1 4 p (y i) = 1 p (y$
而且使得

以上表达中，一般我们用

max H (Y | X) = - \sum x, y p (x, y) log p (y | x)

上面的表达式仅仅针对某一个NLP的特例。最大熵模型Maxent(Maximum Entropy)的一般式为：

max p \in P H (Y | X) = - \sum (x, y) p (x, y) log p (y

为了进一步说明最大熵模型在NLP中的应用，我们给出一些在NLP中的常用的定义，以此推出最大熵模型的一个约束条件的具体表达式：

特征：
样本：关于某个特征
特征函数：对于一个特征 $f (x, y) = {1 0 x = x i a n d y = y i$
样本特征函数期望值：对于一个特征 $p ¯ (f) = \sum (x i, y i) p ¯ (x, y) f (x, y)$

条件Constraints:
对每个特征

特征

p (f) = \sum (x i, y i) p ¯ (x) p (y | x) f (x, y)

\sum (x i, y i) p ¯ (x) p (y | x) f (x, y) = \sum (

p * = arg max p \in P H (Y | X) = - \sum (x, y) p (x, y) log p

求解最大熵模型

我们使用Lagrange乘子法来求解，该条件约束优化问题的Lagrange函数为：

Λ (p, λ ?) = H (Y | X) + \sum i = 1 m λ i (E (f i) -

L = \sum (x, y) p (y | x) p ¯ (x) log 1 p ( y | x ) + \sum

\partial L \partial p ( y | x ) = p ¯ ( x ) ( - log p ( y | x ) - 1 ) + \sum

可以看出

\sum y exp (\sum i = 1 m λ i f i (x, y)) exp (

p * (y | x) = 1 Z λ ( x ) exp ( \sum i λ i f i ( x

经过这个步骤，我们似乎已经求得了最优的最大熵模型中

L (λ + δ) - L (λ) = \sum x, y p ¯ (x, y) \sum i =

A (δ | λ) = \sum x, y p ¯ (x, y) \sum i = 1 n δ i

接下来，对该下界求偏导，令偏导为0，求出相应的

B (δ | λ) = \sum x, y p ¯ (x, y) \sum i = 1 n δ i

\partial B ( δ | λ ) \partial δ i = \sum x , y p ¯ ( x , y

\sum x, y p ¯ (x) p λ (y | x) f i (x, y) exp (

分情况讨论：

若 $δ i = 1 M log E p ¯ ( f i ) E p ($
若 $g (δ i) = \sum x, y p ¯ (x) p λ (y | x) f$ $δ i (k + 1) = δ i (k) - g ( δ i ( k ) )$

因为需要计算

将上述求解过程中得到的参数

p * (y | x) = 1 Z λ ( x ) e \sum i λ i f i ( x

参考文献：

《统计学习方法》，李航著，清华大学出版社，2012年
A Mathematical Theory of Communication，shannon，1948

3月机器学习在线班第六课笔记--信息熵与最大熵模型

标签：

原文地址：http://www.cnblogs.com/zhizhan/p/4658885.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行