首页 > 编程语言 > 详细

[Python]数据挖掘（1）、梯度下降求解逻辑回归——考核成绩分类

时间：2018-01-25 21:47:46 阅读：644 评论：0 收藏：0 [点我收藏+]

标签：经典算法 http png mod 比较历史 alt element 不同

ps：本博客内容根据唐宇迪的的机器学习经典算法学习视频复制总结而来

http://www.abcplus.com.cn/course/83/tasks

逻辑回归

问题描述：我们将建立一个逻辑回归模型来预测一个学生是否被大学录取。假设你是一个大学系的管理员，你想根据两次考试的结果来决定每个申请人的录取机会。你有以前的申请人的历史数据，你可以用它作为逻辑回归的训练集。对于每一个培训例子，你有两个考试的申请人的分数和录取决定。为了做到这一点，我们将建立一个分类模型，根据考试成绩估计入学概率。

数据下载：https://pan.baidu.com/s/1pNbtrjP

数据大概长这个样

技术分享图片

1、查看数据基本属性

技术分享图片

2、画图观察

plot结构剖析

技术分享图片

上图来自https://www.jianshu.com/p/b4b5dd20e48a

技术分享图片

3、建立分类器（求解出三个参数

设定阈值，根据阈值判断录取结果（此处设置为50%，≥50%即判断录取）

要完成的模块：
- sigmoid : 映射到概率的函数

model : 返回预测结果值
cost : 根据参数计算损失
gradient : 计算每个参数的梯度方向
descent : 进行参数更新
accuracy: 计算精度

技术分享图片

技术分享图片

技术分享图片

技术分享图片

技术分享图片

技术分享图片

技术分享图片

4、损失函数

技术分享图片

技术分享图片

5、计算梯度

技术分享图片

技术分享图片

6、梯度下降（比较三种梯度下降方法）

技术分享图片

技术分享图片

技术分享图片

下面这段代码仅仅是将过程可视化

技术分享图片

7、不同的停止策略

①设定迭代次数

技术分享图片

②根据损失值停止

上面的迭代次数过少，修改阈值为1E-6，迭代次数大概需要110000次。会发现值再次降低

技术分享图片

这种策略虽然准确度较高，但是迭代次数多，计算量大

③、根据梯度变化停止

设定阈值 0.05,差不多需要40 000次迭代

技术分享图片

8、对比不同的梯度下降方法

①Stochastic descent 随机梯度下降

技术分享图片

相当不稳定,再来试试把学习率调小一些

技术分享图片

速度快，效果和稳定性都差，需要很小的学习率

②Mini-batch descent 小批量梯度下降

技术分享图片

标准化/归一化

浮动仍然比较大，我们来尝试下对数据进行标准化将数据按其属性(按列进行)减去其均值，然后除以其方差。最后得到的结果是，对每个属性/每列来说所有数据都聚集在0附近，方差值为1。

技术分享图片

它好多了！原始数据，只能达到达到0.61，而我们得到了0.38个在这里！所以对数据做预处理是非常重要的。

技术分享图片

更多的迭代次数会使得损失下降的更多！

技术分享图片

随机梯度下降更快，但是我们需要迭代的次数也需要更多，所以还是用batch的比较合适！

技术分享图片

9、精度

技术分享图片

[Python]数据挖掘（1）、梯度下降求解逻辑回归——考核成绩分类

标签：经典算法 http png mod 比较历史 alt element 不同

原文地址：https://www.cnblogs.com/little-monkey/p/8345828.html

踩

(0)

赞

(0)

举报

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

更多

友情链接

兰亭集智国之画百度统计站长统计阿里云 chrome插件新版天听网

关于我们 - 联系我们 - 留言反馈

© 2014 mamicode.com 版权所有联系我们:gaon5@hotmail.com

迷上了代码！