码迷,mamicode.com
首页 >  
搜索关键字:清洗    ( 781个结果
异常点/离群点检测算法——LOF
http://blog.csdn.net/wangyibo0201/article/details/51705966 局部异常因子算法-Local Outlier Factor(LOF) 在数据挖掘方面,经常需要在做特征工程和模型训练之前对数据进行清洗,剔除无效数据和异常数据。异常检测也是数据挖掘的 ...
分类:编程语言   时间:2017-06-06 13:07:14    阅读次数:546
浪叫兽大数据工作经验简介
入职公司后,知道自己要从事的是一份数据仓建设工作,从项目经理那里了解到,主要是负责数据的接入,清洗,还有场景的建设。 和普通的新入职场的人一样,我对工作也都是存在恐惧的,而且有焦虑症,因为对工作的未知性,还有也不知道工作的要求是不是很高,自己是否会能在岗位呆下去,真的创造价值,那都是后话。 不怕你恐 ...
分类:其他好文   时间:2017-06-05 12:45:43    阅读次数:223
7-感觉身体被掏空,但还是要学Pandas(下)
本周群主用了两天时间为浙师大的《旅游大数据分析师——Pandas数据清洗》课程备课,和Pandas来了一次深度亲密接触。现在做梦都是DataFrame变形:stack,unstack,pivot table……对Pandas有了全新的认识:原来它不只是提供类似表格的数据结构DataFrame这么简单 ...
分类:其他好文   时间:2017-06-04 21:13:11    阅读次数:217
Scrapy基础(十三)————ItemLoader的简单使用
ItemLoader的简单使用:目的是解决在爬虫文件中代码结构杂乱,无序,可读性差的缺点 经过之前的基础,我们可以爬取一些不用登录,没有Ajax的,等等其他的简单的爬虫回顾我们的代码,是不是有点冗长,将所需字段通过xpath或者css解析出来,再自定义语句(还不是函数中)进行清洗;然后再装入Item ...
分类:其他好文   时间:2017-05-31 21:27:40    阅读次数:2010
网络安全架构规划策略
随着刚刚过去一轮比特币病毒的清洗,网络安全问题再次给我当头棒喝。对于企业来说,保障数据安全,维持业务稳定是重中之重。那么如何采取有效的措施来保障我们的数据安全,保障我们的系统不会被外来的入侵者破坏呢?下面就以个人工作经历中一些体会来谈一谈常用的安全架构策略..
分类:其他好文   时间:2017-05-31 15:28:00    阅读次数:257
抗DDOS究竟哪家强
十全大补帖,抗DDoS究竟哪家强?摘要:现在DDoS攻击太猛了,可是你知道吗,抗D服务也是很猛的,今天小黑羊来给做个抗D产品大盘点好了,刚才讲的就是DDoS与抗DDoS的故事:老罗“坚果”手机发布,官网遭到大规模DDoS攻击,用某云的分布式抗D系统对攻击流量进行清洗,健康流量回注..
分类:其他好文   时间:2017-05-31 15:25:43    阅读次数:431
数据清洗小记(2):全角数字转换半角数字
原创作品。出自 “深蓝的blog” 博客,欢迎转载,转载时请务必注明出处,否则有权追究版权法律责任。深蓝的blog:http://blog.csdn.net/huangyanlong/article/details/46340383 【背景】在将某数字类型字段插入到目标端时,报错。提示类型不对,查看 ...
分类:其他好文   时间:2017-05-31 10:34:38    阅读次数:197
如何用机器学习对文本分类
需求 使用监督学习对历史数据训练生成模型,用于预测文本的类别。 样本清洗 主要将重复的数据删除掉,将错误无效的数据纠正或删除,并检查数据的一致性等。比如我认为长度小于少于13的数据是无效的遂将之删掉。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 1 2 3 4 5 6 7 8 ...
分类:其他好文   时间:2017-05-31 10:18:34    阅读次数:172
自然语言交流系统 phxnet团队 创新实训 个人博客 (十四)
关于WikiExtractor的学习笔记: WikiExtractor是一个Python 脚本,专门用于提取和清洗Wikipedia的dump数据,支持Python 2.7 或者 Python 3.3+,无额外依赖,安装和使用都非常方便: 安装: git clone https://github.c ...
分类:编程语言   时间:2017-05-22 22:11:15    阅读次数:251
『Python』MachineLearning机器学习入门_极小的机器学习应用
一个小知识: 有意思的是,scipy囊括了numpy的命名空间,也就是说所有np.func都可以通过sp.func等价调用。 简介: 本部分对一个互联网公司的流量进行拟合处理,学习最基本的机器学习应用。 导入包&路径设置: 读入&清洗数据: 绘图函数: 这个函数写的很精妙,有不少使用了python高 ...
分类:编程语言   时间:2017-05-21 17:57:14    阅读次数:238
781条   上一页 1 ... 49 50 51 52 53 ... 79 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!