码迷,mamicode.com
首页 > 编程语言 > 详细

逻辑回归(LogisticRegression)从疝气病预测病马的死亡率--python实现

时间:2015-10-14 00:13:14      阅读:966      评论:0      收藏:0      [点我收藏+]

标签:

背景:使用Logistic回归来预测患有疝气病的马的存活问题,这里的数据包括368个样本和28个特征,疝气病是描述马胃肠痛的术语,然而,这种病并不一定源自马的胃肠问题,其他问题也可能引发疝气病,该数据集中包含了医院检测马疝气病的一些指标,有的指标比较主观,有的指标难以测量,例如马的疼痛级别。另外,除了部分指标主观和难以测量之外,该数据还存在一个问题,数据集中有30%的值是缺失的。

1、准备数据:处理数据中的缺失值

  数据中的缺失值是一个非常棘手的问题,那么数据缺失究竟带来了多少问题?假设有100个样本和20个特征,这些数据都是机器收集回来的,若机器上的某个传感器损坏导致一个特征无效时该怎么办?此时是否扔掉整个数据集?这种情况下,另外19个特征怎么办?它们是否还可用?答案是肯定的。因为有时数据相当昂贵,扔掉和重新获取都是不可取的,所以必须采用一些方法来解决这个问题。

  下面给出了一些可选的做法:

  (1)使用可用特征的均值来填补缺失值;

  (2)使用特征值来填补缺失值,如-1;

  (3)忽略有缺失值的样本;

  (4)使用相似样本的均值填补缺少值;

  (5)使用另外的机器学习算法预测缺失值。

  

逻辑回归(LogisticRegression)从疝气病预测病马的死亡率--python实现

标签:

原文地址:http://www.cnblogs.com/chamie/p/4876149.html

(1)
(1)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!