首页 > 其他好文 > 详细

3. Generlized Linear Models

时间：2014-05-23 06:30:48 阅读：273 评论：0 收藏：0 [点我收藏+]

标签：style blog c http color a

Generlized Linear Models 广义线性模型

Linear Regression和Logistic Regression都是广义线性模型的特例

The exponential family自然指数分布族

当概率密度函数可以写成下面的形式，我们称属于自然指数分布族：

η 特性[自然]参数 natural parameter

T (y) 充分统计量 sufficient statistic 一般情况下 T (y) = y

a(η) 积累量母函数log partition function

e^?a(η)用来归一化

Bernoulli –> exponential family

反解，logistic函数是这么来的：

φ =1/(1 + e^?η)

Gaussian -> exponential family(假设σ²= 1)

众多概率统计学过的分布都属于自然指数分布族

构造GLM的步骤

假设：
目标：给定x，预测T (y)。即 h(x) = E[y|x]
η = θ^Tx

第三步可以考虑为设计策略，η是输入变量的线性组合

使用极大似然估计法估计参数

扯点远的

Bayesian vs Frequentist

频率学派认为θ未知的，确定的变量（上帝知道）

估计θ的方法是，θ的值应该使得观察到的样本最大可能的出现（经验风险最小化）

贝叶斯学派观点见生成学习算法

下面举几个栗子

Linear Regression

=μ
η = θ^Tx

根据μ = η有：

极大似然估计

选择最小化

一气呵成

Logistic Regression

y|x; θ ～ Bernoulli(φ)
=φ
η = θ^Tx

根据φ =1/(1 + e^?η)有：

极大似然估计

选择最大化?(θ)

又一气呵成

构造GLM的难点

可以看出构造GLM难点在于第一步，对y|x; θ的分布建模。

如何确定y|x; θ的分布。。。。不知道。。。。

只能假定你已经y|x; θ的分布是某个指数族分布

最后一个栗子

Softmax Regression

k分类问题

y ∈{1 2, . . . , k}

一个比较合理的假设是对y|x; θ服从多项分布（multinomial distribution）

K个输出的概率记为φ₁, . . . , φ_k，其中

定义如下

指示函数（indicator function） 1{·}

1{True} = 1, 1{False} = 0 比如 1{2 = 3} = 0

y|x; θ ～多项式分布

得到：

反解得：

定义：

叠加得：

上式称为softmax 函数

极大似然估计

选择最大化?(θ)

这种处理多分类问题称为softmax regression

参考资料

[1] CS229

Lecture notes 1 (ps) (pdf) Supervised Learning, Discriminative Algorithms Andrew Ng
[2] Coursera Machine Learning Andrew Ng

3. Generlized Linear Models,布布扣,bubuko.com

3. Generlized Linear Models

标签：style blog c http color a

原文地址：http://www.cnblogs.com/noooop/p/3741776.html

踩

(0)

赞

(0)

举报

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

更多

友情链接

兰亭集智国之画百度统计站长统计阿里云 chrome插件新版天听网

关于我们 - 联系我们 - 留言反馈

© 2014 mamicode.com 版权所有联系我们:gaon5@hotmail.com

迷上了代码！