码迷,mamicode.com
首页 >  
搜索关键字:清洗    ( 781个结果
R语言︱异常值检验、离群点分析、异常值处理
在数据挖掘的过程中,数据预处理占到了整个过程的60% 脏数据:指一般不符合要求,以及不能直接进行相应分析的数据 脏数据包括:缺失值、异常值、不一致的值、重复数据及含有特殊符号(如#、¥、*)的数据 数据清洗:删除原始数据集中的无关数据、重复数据、平滑噪声数据、处理缺失值、异常值等 缺失值处理:删除记 ...
分类:编程语言   时间:2017-02-28 00:21:38    阅读次数:2813
模型优化
数据清洗 不可信样本丢弃 缺省值极多的字段考虑不用 数据采样 下/上采样 保证样本均衡 特征处理 数值型 类别型 时间型 文本型 统计型 组合特征 特征选择 过滤型 sklearn.feature_selection.SelectKBest 包裹型 sklearn.feature_selection ...
分类:其他好文   时间:2017-02-17 00:01:57    阅读次数:456
2017计划
我二十几年的青春时光就像一首田园诗:没有遭遇火山喷发那样的天灾,没有经历种族清洗的惨剧,没有尝过“马铃薯大饥荒”的滋味;也没人性骚扰我,没有坏孩子欺负我,没人逼着我在大冬天舔冷得要命的冰条;我也不必苦苦寻找生母,或是在青春期叛逆地尖叫:“你才不是我亲爸!”和那些相比,我的苦恼简直就是小儿科,就像泡在 ...
分类:其他好文   时间:2017-02-15 13:41:39    阅读次数:146
优达学城数据分析师纳米学位——P3项目知识点整理及代码分析
P3 OpenStreetMap 项目思路整理 P3项目的核心在于数据的整理 data cleaning 数据清洗,数据来源于开源的OpenStreetMap平台,该平台上的很多数据都是开发者自行输入的,难免会造成数据的混乱和缺失,错误,也就是所说的dirty data 脏数据 human invo ...
分类:其他好文   时间:2017-02-03 00:31:37    阅读次数:355
2016年度总结
时光荏苒,2016过去将近一个月了,又涨了一岁。回想2016这一年里,快乐过,悲伤过,也迷茫过。不管有没收获,写个总结算是给自己一个交代吧。(15年没写总结,和今年的放在一起写了) 我 二十几年的青春时光就像一首田园诗:没有遭遇火山喷发那样的天灾,没有经历种族清洗的惨剧,没有尝过“马铃薯大饥荒”的滋 ...
分类:其他好文   时间:2017-01-23 14:54:35    阅读次数:131
python 进程池的使用
python的线程无法很好的利用到多cpu的功能,所以大家都比较推荐多进程 下面是进程池的用法,我这里是清洗redis的过期内容 close和join一定要做,否则会占用内存 ...
分类:编程语言   时间:2017-01-08 14:20:07    阅读次数:186
如何选择一个好的软件开发公司?
北京华盛恒辉科技有限公司,是一家北京软件开发公司,是专业的软件产品研发与销售企业,立足于数据领域,为航天、军工、铁路等大型企事业单位提供以数据为核心的平台级信息化解决方案。公司在数据采集、数据清洗、数据存储、数据计算与挖掘、大数据可视化等方面有着深入的研究。 同时,公司在高端软件定制方面,为中国航天 ...
分类:其他好文   时间:2016-12-24 13:35:54    阅读次数:174
Spider爬虫清洗数据(re方法)
import re s0 = 'BOY and GIRL' s1 = re.sub(r'BOY|GIRL', 'HUMAN', s0) print s1 # HUMAN and HUMAN 替换方法。 ...
分类:其他好文   时间:2016-12-24 02:31:07    阅读次数:190
781条   上一页 1 ... 53 54 55 56 57 ... 79 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!