标签:
背景:使用Logistic回归来预测患有疝气病的马的存活问题,这里的数据包括368个样本和28个特征,疝气病是描述马胃肠痛的术语,然而,这种病并不一定源自马的胃肠问题,其他问题也可能引发疝气病,该数据集中包含了医院检测马疝气病的一些指标,有的指标比较主观,有的指标难以测量,例如马的疼痛级别。另外,除了部分指标主观和难以测量之外,该数据还存在一个问题,数据集中有30%的值是缺失的。
1、准备数据:处理数据中的缺失值
数据中的缺失值是一个非常棘手的问题,那么数据缺失究竟带来了多少问题?假设有100个样本和20个特征,这些数据都是机器收集回来的,若机器上的某个传感器损坏导致一个特征无效时该怎么办?此时是否扔掉整个数据集?这种情况下,另外19个特征怎么办?它们是否还可用?答案是肯定的。因为有时数据相当昂贵,扔掉和重新获取都是不可取的,所以必须采用一些方法来解决这个问题。
下面给出了一些可选的做法:
(1)使用可用特征的均值来填补缺失值;
(2)使用特征值来填补缺失值,如-1;
(3)忽略有缺失值的样本;
(4)使用相似样本的均值填补缺少值;
(5)使用另外的机器学习算法预测缺失值。
逻辑回归(LogisticRegression)从疝气病预测病马的死亡率--python实现
标签:
原文地址:http://www.cnblogs.com/chamie/p/4876149.html