码迷,mamicode.com
首页 >  
搜索关键字:清洗    ( 781个结果
使用Pandas: str.replace() 进行文本清洗
前段时间参加了Kaggle上的 "Mercari Price Suggestion Challenge" 比赛,收获良多,过些时候准备进行一些全面的总结,本篇文章先谈一个比赛中用到的小技巧。 这个比赛数据中有一个特征叫做 " item_description ",大致是一些商品描述,比如什么时候买的 ...
分类:其他好文   时间:2018-07-08 20:09:31    阅读次数:258
Python网络数据采集
飞到花上 采集花粉 经过处理 数据清洗 存储编程可用的数据 urlib BeautifulSoup lxml Scrapy PdfMiner Requests Selenium NLTK Pillow unittset PySocks 知名网站的API MySQL数据库 OpenRefine数据分析 ...
分类:编程语言   时间:2018-07-06 18:58:43    阅读次数:306
【转】ETL讲解(很详细!!!)
ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。 ETL是BI项目重要的一个环节。 通常情况下,在BI项目中ETL会花掉整个项目至少1/3的时间,ETL设计的好坏直接关接到BI项目的成败。 ETL的 ...
分类:其他好文   时间:2018-07-06 15:52:30    阅读次数:127
特征工程——特征预处理
特征的标准化和归一化 异常特征样本清洗 处理不平衡数据 特征的标准化和归一化 异常特征样本清洗 处理不平衡数据 特征的标准化和归一化 由于标准化和归一化这两个词经常混用,所以本文不再区别标准化和归一化,而通过具体的标准化和归一化方法来区别具体的预处理操作。 z-score标准化:这是最常见的特征预处 ...
分类:其他好文   时间:2018-07-04 20:10:20    阅读次数:144
关于特征工程的一些学习、思考与错误的纠正
特征工程的整体思路: 1. 对于特征的理解、评估 2. 特征处理: 2.1 特征处理 2.1.1 特征清洗 清洗异常、采样 2.1.2 预处理 单特征情况:归一化、离散化、哑变量编码、缺失值填充等。数据变换例如log服从正态分布。 多特征情况: 降维:PCA、LDA(这个不太了解、待学习) 特征选择 ...
分类:其他好文   时间:2018-07-03 16:57:21    阅读次数:187
大数据技术之日志清洗案例
7.7 日志清洗案例 7.7.1 简单解析版 1)需求: 去除日志中字段长度小于等于11的日志。 2)输入数据 3)实现代码: (1)编写LogMapper (2)编写LogDriver 7.7.2 复杂解析版 1)需求: 对web访问日志中的各字段识别切分 去除日志中不合法的记录 根据统计需求,生 ...
分类:其他好文   时间:2018-07-02 22:06:43    阅读次数:458
【转】数据分析
详解 Kaggle 房价预测竞赛优胜方案:用 Python 进行全面数据探索 方法框架: 理解问题:查看每个变量并且根据他们的意义和对问题的重要性进行哲学分析。 单因素研究:只关注因变量( SalePrice),并且进行更深入的了解。 多因素研究:分析因变量和自变量之间的关系。 基础清洗:清洗数据集 ...
分类:其他好文   时间:2018-06-25 16:49:40    阅读次数:336
MapReduce Design Patterns(chapter 2 (part 2))(三)
Median and standard deviation 中值和标准差的计算比前面的例子复杂一点。因为这种运算是非关联的,它们不是那么容易的能从combiner中获益。中值是将数据集一分为两等份的数值类型,一份比中值大,一部分比中值小。这需要数据集按顺序完成清洗。数据必须是排序的,但存在一定障碍, ...
分类:其他好文   时间:2018-06-19 16:29:41    阅读次数:182
你们以为虚拟化就安全了吗?
安全是悬在云计算头上的一个利剑。比如,虚拟化后的集中带来致命的弊端,一旦承载虚拟化平台的电脑系统出现问题,企业办公将受到牵连,严重时还可能使整个系统瘫痪。你们以为买了个云安全平台就安全了吗?无非不都是利用引流技术将流量引到装有传统安全设备镜像的资源池里做“流量清洗、行为识别、特征分析。”罢了。1、虚拟机间的相互×××传统的IDS设备,利用交换机的端口镜像功能,可以监控外部对DMZ区,以及DMZ区内部
分类:其他好文   时间:2018-06-18 23:46:38    阅读次数:440
HDFS文件压缩
起因: 集群磁盘剩余空间不足。 删除了存储在HDFS上的,一定时间之前的中间结果,发现并不能释放太多空间,查看计算业务,发现,每天的日志存在数量竟然是10份。/惊恐 /a/log=20180101 #每日原始日志 /b/log=20180101 #每日原始日志,做了清洗 /c/log=2018010 ...
分类:其他好文   时间:2018-06-18 11:59:14    阅读次数:783
781条   上一页 1 ... 37 38 39 40 41 ... 79 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!