码迷,mamicode.com
首页 > 其他好文 > 详细

交叉熵

时间:2017-12-06 17:51:17      阅读:138      评论:0      收藏:0      [点我收藏+]

标签:distrib   target   var   bit   用户   数据   nal   包含   cti   

作者:匿名用户
链接:https://www.zhihu.com/question/35322351/answer/67193153
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

看了一下,几乎所有的回答都只解释了“为什么可以用sigmoid”,而没有解释“为什么要用sigmoid”。虽然也有回答提到了exponential family中bernoulli的形式,但高票回答基本只说明了sigmoid的各种良好性质。

若是光从这个角度解释的话,probit也具有相同的性质,为什么除了做GLM的,基本上就没人用呢?

说到底源于sigmoid,或者说exponential family所具有的最佳性质,即maximum entropy的性质。
虽然不清楚历史上孰先孰后,但这并不妨碍maximum entropy给了logistic regression一个很好的数学解释。

为什么maximum entropy好呢?entropy翻译过来就是熵,所以maximum entropy也就是最大熵。熵原本是information theory中的概念,用在概率分布上可以表示这个分布中所包含的不确定度,熵越大不确定度越大。所以大家可以想象到,均匀分布熵最大,因为基本新数据是任何值的概率都均等。

而我们现在关心的是,给定某些假设之后,熵最大的分布。也就是说这个分布应该在满足我假设的前提下越均匀越好。比如大家熟知的正态分布,正是假设已知mean和variance后熵最大的分布。

回过来看logistic regression,这里假设了什么呢?首先,我们在建模预测 Y|X,并认为 Y|X 服从bernoulli distribution,所以我们只需要知道 P(Y|X);其次我们需要一个线性模型,所以 P(Y|X) = f(wx)。接下来我们就只需要知道 f 是什么就行了。而我们可以通过最大熵原则推出的这个 f,就是sigmoid。

其实前面也有人剧透了bernoulli的exponential family形式,也即是 1/ (1 + e^-z)

具体推导详见:
 

交叉熵

标签:distrib   target   var   bit   用户   数据   nal   包含   cti   

原文地址:http://www.cnblogs.com/earendil/p/7993186.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!