逻辑回归与最大熵模型

时间：2019-11-24 15:30:55 阅读：75 评论：0 收藏：0 [点我收藏+]

逻辑回归

sigmoid函数=\(\sigma(x)=\frac{1}{1+e^{-x}}=\frac{e^{x}}{1+e^{x}}\)

二项逻辑回归模型

有如下条件概率分布，\(w\)内已经包含了偏置\(b\)：
\[P(Y=1|x)=\frac{\exp(w\cdot x)}{1+\exp(w\cdot x)}\]
\[P(Y=0|x)=\frac{1}{1+\exp(w\cdot x)}\]

对数几率：
\[\text{logit}(p)=\frac{P(Y=1|x)}{1-P(Y=1|x)}=\frac{p}{1-p}=w\cdot x\]

参数估计

设：\(P(Y=1|x)=\pi (x), \qquad P(Y=0|x)=1-\pi (x)\)
似然函数为
\[\prod \limits_{i=1}^N[\pi(x_i)]^{y_i}[1-\pi(x_i)]^{1-y_i}\]
对数似然函数为
\[\begin{aligned} \mathcal{L}(w) &=\sum \limits_{i=1}^N[y_i\log \pi(x_i)+(1-y_i)\log (1-\pi(x_i))] \& = \sum \limits_{i=1}^N[y_i(w_i \cdot x_i)-\log (1+\exp(w \cdot x_i))] \end{aligned}\]

对\(\mathcal{L}\)求极大值，得到\(w\)的估计值。对于无约束优化问题，一般使用梯度下降法或拟牛顿法（不一定存在解析解，或者难以求解）

多项逻辑回归

\[P(Y=k|x)=\frac{\exp(w_k\cdot x)}{1+\sum \limits_{k=1}^{K-1}\exp(w\cdot x)},\quad k=1,2,\cdots,K-1\]
\[P(Y=K|x)=\frac{1}{1+\sum \limits_{k=1}^{K-1}\exp(w\cdot x)}\]

总结：每项的归一化项都相同，不同的是分子。最后一项分子为1，其他都是对应的\(\exp(w_k \cdot x)\)

最大熵模型

最大熵原理表述为在满足约束条件的模型集合中选取熵最大的模型

模型定义

对于给定数据集，可以确定联合分布\(P(X,Y)\)的经验分布和边缘分布\(P(X)\)的经验分布，分别为：
\[\tilde{P}(X=x,Y=y)=\frac{v(X=x,Y=y)}{N}\]
\[\tilde{P}(X=x)=\frac{v(X=x)}{N}\]
其中\(v(\cdot)\)表示频数

用特征函数\(f(x,y)\)描述输入\(x\)和输出\(y\)之间的某个事实(可以看成是特征提取，提取输入输出的共同特征)，其定义为：

\[f(x,y)=\begin{cases}1,\quad x与y\text{满足某一事实}\\ 0, \quad \text{otherwise}\end{cases}\]

如果模型能够获取训练数据中的信息，那么应该满足：
\[\sum \limits_{x,y}\tilde{P}(x)P(y|x)f(x,y)=\sum \limits_{x,y}\tilde{P}(x,y)f(x,y)\]

或对于特征函数的期望应满足如下条件：

\[E_P(f)=E_{\tilde{P}}(f)\]
其中\(P(Y|X)\)是要学习的条件概率

假设满足所有约束条件的模型集合为
\[C \equiv \{P\in \mathcal{P}|E_P(f_i)=E_{\tilde{P}}(f_i), \quad i=1,2,\cdots,n\}\]

定义在条件概率分布\(P(Y|X)\)上的条件熵为
\[H(P)=-\sum \limits_{x,y}\tilde{P}(x)P(y|x)\ln P(y|x)\]

则模型集合\(\mathcal{C}\)中条件熵\(H(P)\)最大的模型称为最大熵模型

最大熵模型的学习

可以形式化为约束最优化问题
\[\begin{aligned} \max \limits_{P\in C} \quad & H(P)= -\sum \limits_{x,y}\tilde{P}(x)P(y|x)\ln P(y|x) \s.t. \quad & E_P(f_i)=E_{\tilde{P}}(f_i), \quad i=1,2,\cdots,n \& \sum \limits_y P(y|x)=1 \end{aligned}\]

逻辑回归与最大熵模型的关系

当\(y \in \{+1,-1\}\)，且特征函数为
\[f=\begin{cases}g(x), \quad & y=y_1 \\ 0, \quad &y=y_0 \end{cases}\]
时，最大熵模型变为逻辑回归模型

逻辑回归优缺点

优点：
- 便利的观测样本概率分数；
- 已有工具的高效实现；
- 对逻辑回归而言，多重共线性并不是问题，它可以结合L2正则化来解决；
- 逻辑回归广泛的应用于工业问题上（这一点很重要）
缺点：
- 当特征空间很大时，逻辑回归的性能不是很好；
- 不能很好地处理大量多类特征或变量；
- 对于非线性特征，需要进行转换；
- 依赖于全部的数据（个人觉得这并不是一个很严重的缺点）

逻辑回归与最大熵模型

标签：最优化问题总结高效 isp 相同原理一个实现 ext

原文地址：https://www.cnblogs.com/weilonghu/p/11922301.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行