码迷,mamicode.com
首页 >  
搜索关键字:清洗    ( 781个结果
ETL大数据测试介绍
ETL是神马ETL(Extract,Transform and Load)翻译为中文就是数据提取、转换和加载。典型的大数据项目里,一般都有数据获取,数据清洗,数据发掘,数据可视化, 数据分析等步骤,而这个过程就是所谓的ETL。所以ta定义的是过程,并不是技术也不是工具。数据仓库测试 VS 数据库测试这里为什么会提到数据仓库呢?原因是ta与ETL有着千丝万缕的关系。比如,我们要盖一栋楼,那这个建筑图
分类:其他好文   时间:2017-12-01 11:33:10    阅读次数:112
数据分析进阶 数据质量
目的:使用python对excel中的数据进行清洗,根据列进行数据清洗 习题1: 处理城市 infobox 数据,对数据进行审核,然后想出清理方法并清理数据。在第一道练习中,请审核数据集中某些特定字段中的数据类型。 值类型可以是: 1. NoneType,如果值是字符串“NULL”或空字符串“” 2 ...
分类:其他好文   时间:2017-11-28 11:54:25    阅读次数:168
中文维基数据处理 - 1. 下载与清洗
1. 数据下载 一些重要的链接: 1. "最新转储" 需要 这个文件 2. "中文维基的页面统计信息" 目前内容页面数大约是 978K 2. 数据处理 选择了 "Gensim" 这个主题工具包进行数据预处理。 2.1 xml 转 json "scripts.segment_wiki" 然后就转换成了 ...
分类:其他好文   时间:2017-11-25 13:07:02    阅读次数:201
数据清洗、合并、转化和重构
数据清洗是数据分析关键的一步,直接影响之后的处理工作 数据需要修改吗?有什么需要修改的吗?数据应该怎么调整才能适用于接下来的分析和挖掘? 是一个迭代的过程,实际项目中可能需要不止一次地执行这些清洗操作 处理缺失数据:pd.fillna(),pd.dropna() 1.数据连接(pd.merge) p ...
分类:其他好文   时间:2017-11-19 19:41:11    阅读次数:204
成都盖碗茶
盖碗茶的茶具:上有盖、下有托,中有碗的茶具。又称“三才碗”,盖为天、托为地、碗为人。 品盖碗茶:茶盖放在碗内,若要茶汤浓些,可用茶盖在水面轻轻刮一刮,使茶水上下翻转,底部的浓茶上涌,轻刮则淡,重刮则浓,是其妙也。 煮茶步骤: 一是净具:用温水将茶碗、碗盖、碗托清洗干净。 二是置茶:用盖碗茶饮茶,摄取 ...
分类:其他好文   时间:2017-11-17 10:48:16    阅读次数:135
DataMasker数据脱敏
产品简介:DataMasker数据脱敏平台,专业处理敏感数据,内置针对不同行业的敏感数据发现规则,支持多任务并发,充分利用系统资源,提高脱敏效率,真正做到智能而人性化的任务管理。DataMasker保护隐私数据满足数据规格和业务一致性、保证业务可靠运行,实时动态保护生产系统数据..
分类:其他好文   时间:2017-11-14 15:32:06    阅读次数:163
微博excel数据清洗(Java版)
微博数据清洗(Java版) 原创 2013年12月10日 10:58:24 2979 原创 2013年12月10日 10:58:24 2979 大数据公益大学提供的一份数据,义务处理一下,原始数据是Excel,含有html标签,如下: 要求清洗掉html标签,和微博内容中的url地址。 主要分为两部 ...
分类:编程语言   时间:2017-11-08 13:08:39    阅读次数:229
《谁说菜鸟不会数据分析》数据处理 之 数据清洗--重复数据的处理
重复数据的处理 识别重复数据 删除重复数据 一、识别重复数据 函数法 高级筛选法 条件格式法 数据透视法 函数法 高级筛选法 条件格式法 数据透视法 总结: 函数法:根据范围选择不同,可以看到重复的个数,也可以得到这是第几个重复值。 高级筛选法:将多余的去除,只留下唯一一个。 条件格式法:将有重复项 ...
分类:其他好文   时间:2017-11-05 18:33:55    阅读次数:164
luogu1113 杂物 (拓扑排序)
题目描述 John的农场在给奶牛挤奶前有很多杂务要完成,每一项杂务都需要一定的时间来完成它。比如:他们要将奶牛集合起来,将他们赶进牛棚,为奶牛清洗乳房以及一些其它工作。尽早将所有杂务完成是必要的,因为这样才有更多时间挤出更多的牛奶。当然,有些杂务必须在另一些杂务完成的情况下才能进行。比如:只有将奶牛 ...
分类:编程语言   时间:2017-11-04 13:17:13    阅读次数:223
Hadoop学习笔记—20.网站日志分析项目案例(二)数据清洗
网站日志分析项目案例(一)项目介绍:http://www.cnblogs.com/edisonchou/p/4449082.html 网站日志分析项目案例(二)数据清洗:当前页面 网站日志分析项目案例(三)统计分析:http://www.cnblogs.com/edisonchou/p/446434 ...
分类:Web程序   时间:2017-11-03 13:11:02    阅读次数:230
781条   上一页 1 ... 44 45 46 47 48 ... 79 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!