标签:为什么 ESS 逻辑 比较 pdf http 推导 csdn 一个
今天面试被问到LR的算法的梯度和正则化项,自己不太理解,所以找了一些相关资料,发现LR的算法在梯度下降,正则化和sigmoid函数方面都有很深的研究,期间也发现一些比较好的资料,记录一下。
这篇论文推导了LR和最大熵模型之间的关系
http://www.win-vector.com/dfiles/LogisticRegressionMaxEnt.pdf
这篇文章是论文的翻译和理解,帮助看论文。
https://blog.csdn.net/qq_32742009/article/details/81746955
主要结论:二项分布的最大熵就是二项指数的最大似然估计。
证明方法:假设x服务二项指数分布,求解二项分布的参数,最后x被推出服从二项指数分布,整个推导过程是一个闭环。
疑点是:是为什么要假设x服务二项指数分布呢?(备注:二项指数分布也就是逻辑斯蒂分布)
算法一般是假设正太分布,为什么直接假设是正太分布呢?
凸函数定义
https://blog.csdn.net/feilong_csdn/article/details/83476277
LR的L1正则化不可导证明:
https://blog.csdn.net/luoyexuge/article/details/79594554
坐标下降法
https://blog.csdn.net/xiaocong1990/article/details/83039802
还有一种近端梯度下降求解的方法:
https://www.zhihu.com/question/38426074/answer/76683857
标签:为什么 ESS 逻辑 比较 pdf http 推导 csdn 一个
原文地址:https://www.cnblogs.com/x739400043/p/11414650.html