标签:ble cat slot try include 应该 kaggle from put
该篇详细讨论数据清理步骤。其实这些基础我觉得与数模竞赛过程都是差不多的。
如文中所说:
The first step to data cleaning is removing unwanted observations from your dataset.(数据清理的第一步是从数据集中删除不需要的观察数据。)
This includes duplicate or irrelevant observations.(这主要是一些重复或者不相关的数据。)
1.处理重复或不相关数据
仔细观察下面两张图:
(原图)
(清理后的图)
asphalt、shake-shingle、composition、asphalt,shake-shingle这几项都是大小写不一致或有错别字的,清理以后干净很多。
2.处理异常值
目前我了解到的一些异常值会影响性能,但也有一些异常值可能会很重要。具体看情况处理,如何有十分合理的理由去掉异常值则会是很有帮助的。
3.处理缺失的数据
最常见的两种方式:
(1) Dropping observations that have missing values.(去掉缺失值项,但这不是一个好办法,因为:
)
(2) Imputing the missing values based on other observations.(根据其他观察结果推算缺失值。)
一段真理:Missing data is like missing a puzzle piece. If you drop it, that’s like pretending the puzzle slot isn’t there. If you impute it, that’s like trying to squeeze in a piece from somewhere else in the puzzle.
Missing categorical data(缺失分类数据)
The best way to handle missing data for categorical features is to simply label them as ’Missing’!(对于处理缺失分类特征数据的最佳办法是将它们标记为‘缺失‘!)
Missing numeric data(缺失数字数据)
For missing numeric data, you should flag and fill the values.(对于缺失数字数据,你应该标记并填充一个值。)
By using this technique of flagging and filling, you are essentially allowing the algorithm to estimate the optimal constant for missingness, instead of just filling it in with the mean.(通过使用这种标记和填充技术,您基本上可以让算法估计缺失的最佳常数,而不是仅仅用平均值填充它。)
emmm...写这篇的过程越来越发现基本只能是重述一下原文,于是就只能当翻译一样的去写了,然而我这种英语渣只能是在谷歌翻译下一句一句的通过上下文理解后完成的...所以,如有翻译不好或理解不对的地方还望指正,只希望不要误人子弟!
标签:ble cat slot try include 应该 kaggle from put
原文地址:https://www.cnblogs.com/darkchii/p/8847461.html