标签:nat 表达 不同的 param 价格 center ural 1.5 text
整理一下之前所学过的关于回归问题的思路:
这一节所讨论的重点就是最后的这一条内容,回顾讨论过的线性回归与逻辑回归的假设可知:
线性回归最后一部分将会发现以上这些模型都是广义线性模型的一个特例。
一、指数分布族
首先,要引出指数分布族的概念。它的标准表达式为:
其中,η是分布的自然参数(natural parameter)或典范参数(canonical parameter),T(y)叫做充分统计量(sufficient statistic),通常情况下T(y)=y;a(η)是对数分配函数(log partition function),而a、b与T一般都是给定的,随着η的变化,会得到不同的分布。
下面来分别推导伯努利分布(Bernoulli distribution)与高斯分布(Gaussian distribution)的指数分不族通用表达式。
1. 伯努利分布
已知伯努利分布Bernoulli(Φ),Φ为分布的均值,随着Φ的变化,可以得到不同的伯努利分布。
对应标准表达式可知:
这表明选择合适的a、b、T,可以将伯努利分布写成指数分布族的标准形式。
2. 高斯分布
已知高斯分布N(μ,1),μ为分布的均值,方差对最终θ和h(θ)的选择没有影响,设置为1。
对应标准表达式可知:
同理,高斯分布也可以写成指数分布族的标准形式。
3. 其他指数族分布
还有许多其他分布属于指数分布族,如:
二、广义线性模型(GLM)
1. 三个假设:
(1)
(2)给定x,最终的目标是要求出T(y)期望E[T(y)|x],因为通常T(y)=y,故h(x)也可以被求出来。
(3)自然参数η与输入特征x呈线性相关,即
实数时,
向量时,
2. 最小二乘法:
设定目标变量(响应变量)y是连续的,且y|x;θ服从高斯分布,由上面的推导可知η=μ,故可知假设函数h(x)为:
3. 逻辑回归:
由于考虑到二元分类问题,目标变量y取的值是0或1,很自然地就联想到可以利用伯努利分布来建立模型,假设y|x;θ服从伯努利分布Bernoulli(Φ),所以可知它的期望为Φ:
同最小二乘法的推理过程,由伯努利分布的指数族的标准表达式可以反推出假设函数h(x)为:
这里还有个有趣的知识点,参数η的方程g(η)给定了分布的均值,它被叫做正则响应函数(canonical response function),而它的倒数叫做正则关联函数(canonical link function),高斯家族的正则响应函数就是判别函数(identify function),伯努利的正则响应函数就是逻辑函数(logistic function)。
标签:nat 表达 不同的 param 价格 center ural 1.5 text
原文地址:http://www.cnblogs.com/wallacup/p/6024855.html