标签:为什么 阈值 处理 span log 用户 输入 line 筛选
逻辑回归模型是针对线性可分问题的一种易于实现而且性能优异的分类模型。
它假设数据服从伯努利分布,通过极大化似然函数的方法,运用梯度下降法来求解参数,来达到将数据二分类的目的。
将对数几率记为输入特征值的线性表达式,可得
\[
logit(P(Y=1|X)) = w^Tx
\]
对于某一样本属于特定类别的概率,为\(logit\)函数的反函数,称为\(logistic\)函数,即\(sigmoid\)函数:
\[
\phi(x) = \frac{1}{1+e^{-z}}
\]
逻辑斯蒂回归采用sigmoid函数作为激励函数
逻辑斯蒂回归模型定义:
\[
P(Y=1|X) = \frac{e^{wx}}{1+e^{wx}}
\]
\[
P(Y=0|X) = \frac{1}{1+e^{wx}}
\]
可知,输出\(Y=1\)的对数几率是输入\(x\)的线性函数。
对于给定的训练数据集\(T\),可以应用极大似然估计法估计模型参数,假设模型概率分布是:
\[
P(Y=1|X) = \pi{(x)}
\]
\[
P(Y=0|X) = 1-\pi{(x)}
\]
似然函数为:
\[
\prod_{i=1}^N{[\pi(x_i)]^{y_i}[1-\pi(x_i)]^{1-y_i}}
\]
对数似然函数为:
\[
L(w)=\sum_{i=1}^N{[y_i\log{\pi(x_i)}+(1-y_i)\log{(1-\pi(x_i))}]}
\]
LR的损失函数为什么要使用极大似然函数作为损失函数?
将极大似然函数取对数以后等同于对数损失函数。在逻辑回归这个模型下,对数损失函数的训练求解参数的速度是比较快的。
梯度更新速度只和\(x_{ij}\),\(y_{i}\)相关。和\(sigmod\)函数本身的梯度是无关的。这样更新的速度是可以自始至终都比较的稳定。
为什么不选平方损失函数呢?其一是因为如果你使用平方损失函数,你会发现梯度更新的速度和\(sigmod\)函数本身的梯度是很相关的。\(sigmod\)函数在它在定义域内的梯度都不大于0.25。这样训练会非常的慢。
LR的损失函数为什么要使用\(sigmoid\)函数,背后的数学原理是什么?
LR假设数据服从伯努利分布,所以我们只需要知道 \(P(Y|X)\);其次我们需要一个线性模型,所以 \(P(Y|X) = f(wx)\)。接下来我们就只需要知道 \(f\) 是什么就行了。而我们可以通过最大熵原则推出的这个\(f\),就是\(sigmoid\)。
\(sigmoid\)是在伯努利分布和广义线性模型的假设推导出来的。
为什么LR的输入特征一般是离散的而不是连续的?
在工业界,很少直接将连续值作为逻辑回归模型的特征输入,而是将连续特征离散化为一系列0、1特征交给逻辑回归模型,这样做的优势有以下几点:
标签:为什么 阈值 处理 span log 用户 输入 line 筛选
原文地址:https://www.cnblogs.com/hellojamest/p/10869834.html