首页 > 其他好文 > 详细

机器学习基石笔记-Lecture 10 Logistic regression

时间：2017-06-20 16:23:22 阅读：101 评论：0 收藏：0 [点我收藏+]

标签：ima wiki man gis 概率 span down img count

soft binary classification的概念：软二分类，不直接化为-1、1，而是给出一个概率值。

目标函数是一个概率值，但是拿到的data中y只有0、1（或者-1、1），可以看做是有noise的data。

技术分享

logistic hypothesis

技术分享

通过 theta 转化为 0、1间的数。

技术分享

目标函数f(x)其实呢就是，那么

那么对N个样本，产生的概率是

对于f的估计h，似然函数为技术分享

那么有：

使

用w替换掉h，即求w的极大似然估计

化简后等价于

技术分享

最后的Ein就是cross-entropy error

接下来要做的事就是找到一个w使得Ein最小。

注意到Ein是连续的、可微的、凸函数，所以对w求偏导能得到最优解。（与linear regression思路一样）

技术分享

但是最后偏导出来的不是一个一次方程，不能像linear regression那样直接写出解。

gradient descent

想象成下山，每次探索的结果只要比现在的低，就走出去。在步长固定时，当前点的负梯度是下降最迅速的方向。

技术分享

一阶泰勒展开

技术分享

技术分享

确定了下降的方向后，再考虑走出的步长。步长过大或过小都不好，我们希望在梯度比较大的时候步长稍微大一点，平缓的时候步长小一点。其实就和正相关。

它们的比例系数叫做学习率。

技术分享

学习过程

技术分享

注意这里算法终止的条件是梯度足够小或者迭代达到最高次数。

梯度下降法每次计算在 w_t的梯度时，需要将n个点都计算一遍然后求平均值

stochastic gradient descent

在样本量很大时，梯度下降法每次迭代都要计算n各点对梯度的贡献。

随机梯度下降法在更新w时，只随机选取一个点计算，当做梯度替代 n个点的平均

技术分享

logistic regression:

优点：计算代价不高，易于理解和实现。

缺点：容易欠拟合，分类精度可能不高。

适用：数值型和标称型数据。

机器学习基石笔记-Lecture 10 Logistic regression

标签：ima wiki man gis 概率 span down img count

原文地址：http://www.cnblogs.com/akanecode/p/7054633.html

踩

(0)

赞

(0)

举报

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

更多

友情链接

兰亭集智国之画百度统计站长统计阿里云 chrome插件新版天听网

关于我们 - 联系我们 - 留言反馈

© 2014 mamicode.com 版权所有联系我们:gaon5@hotmail.com

迷上了代码！