码迷,mamicode.com
首页 >  
搜索关键字:清洗    ( 781个结果
Sqoop入门笔记-----架构以及应用介绍
本篇文章在具体介绍Sqoop之前,先给大家用一个流程图介绍Hadoop业务的开发流程以及Sqoop在业务当中的实际地位。 如上图所示:在实际的业务当中,我们首先对原始数据集通过MapReduce进行数据清洗,然后将清洗后的数据存入到Hbase数据库中,而后通过数据仓库Hive对Hbase中的数据进行统计与分析,分析之后将分析结果存入到Hive表中,然后通过Sqoop这个工具将我们的数据挖...
分类:其他好文   时间:2016-05-27 11:55:57    阅读次数:268
Hawk: 20分钟无编程抓取大众点评17万数据
1. 主角出场:Hawk介绍 Hawk是沙漠之鹰开发的一款数据抓取和清洗工具,目前已经在Github开源。详细介绍可参考:http://www.cnblogs.com/buptzym/p/5454190.html,强烈建议先读这篇文章,该文介绍了详细原理和抓取链家二手房的攻略,以此为基础,才能较好的理解整个操作。 本文将讲解通过本软件,获取大众点评的所有美食数据,可选择任一城市,也可以...
分类:其他好文   时间:2016-05-18 18:31:05    阅读次数:165
部署 清洗设备-防DDOS的部署 的经历
10年磨一剑,回赠互联网,生不带来,死不带走。我们不生产技术,只是互联网额搬运工。-----------佛山小西网络DDOS攻击,是一个另人非常头痛的事情,随着网络带宽的扩容(ADSL的各种升级什么光纤到户)导致我们攻击流量越来越廉价,做IT的服务的越来越难做。考虑成本性价比的问..
分类:其他好文   时间:2016-05-15 20:07:06    阅读次数:271
数据质量管理--数据抽取和清洗
web数据集成技术可以从web上自动获取数据,但是获取的信息存在着大量的脏数据,比如滥用缩写词,惯用语,数据输入错误,重复记录,丢失值,拼写变化,不同的计量单位。这些数据是没有意义的,根本就不可能为以后的数据挖掘决策分析提供任何支持。数据清洗主要是提高数据的可用性,目前,数据清洗主要应用于三个领域: 1 数据仓库(DW) 2数据库中的知识发现(KDD) 3数据质量管理(TDQM) 我在公司...
分类:其他好文   时间:2016-05-07 07:30:58    阅读次数:598
走出水清与硝化菌有关的误区
养鱼是一门科学。随着科学养鱼理念的普及,人们对鱼缸生态系统、生化过滤、生物滤材、硝化菌等越来越重视,都在努力的为鱼儿营造一个舒适的生活环境,使其能把最美丽的一面展现给我们。但是在论坛待久了,发现很多鱼友对硝化菌的认识存在误区,我给大家举两个例子: 例一:为什么我清洗滤材后水就变混了? 答:清洗滤材后 ...
分类:其他好文   时间:2016-05-05 09:38:46    阅读次数:110
Hawk-数据抓取工具
Hawk-数据抓取工具:简明教程 Hawk: Advanced Crawler& ETL tool written in C#/WPF 1.软件介绍 HAWK是一种数据采集和清洗工具,依据GPL协议开源,能够灵活,有效地采集来自网页,数据库,文件, 并通过可视化地拖拽,快速地进行生成,过滤,转换等操 ...
分类:其他好文   时间:2016-05-03 20:27:59    阅读次数:829
定时从远程FTP服务器下载txt文件并导入本地Oracle数据库
集团内的业务数据以前是采用 地区采集—集团清洗-分发地区的ETL流程,自从集团成立软件公司以后,子公司需要的业务数据都必须向集团申请而来,但是业务系统底层DC也没提供相应的数据接口,所以就有了这次需求原型:从远程FTP服务器上定时获取txt数据文件,并将数据导入到本地Oracle数据库。 每天需要从 ...
分类:数据库   时间:2016-05-03 17:47:05    阅读次数:245
血雨腥风:武则天和唐高宗的大清洗(先易后难,由内而外,曾经气焰熏天的大臣不过就是当年的狮子骢)
武则天 我们先来看看在武则天和唐高宗对反对派进行大清洗的时候,长孙无忌在干什么呢?他在著书立说。中国古代政治家的传统是“达则兼济天下,穷则独善其身”。被重用的时候就胸怀天下,干一番轰轰烈烈的事业;不被任用的时候,就退回书斋之中,加强自我修养,著书立说。这叫进可攻,退可守。自从武昭仪被立为皇后以后,长 ...
分类:其他好文   时间:2016-04-28 07:02:20    阅读次数:350
设计和开发ETL系统(一)——ETL过程综述
在这部分将按照设计和实现ETL系统的流程展开,将上一个部分的那些子系统按照提取数据、清洗和一致化、向呈现服务器提交以及管理ETL环境等四个方面进行了分类。(是不是说对ETL主要就是掌握这四个方面的内容) ETL处理步骤 提取数据 清洗和一致化 向呈现层提交 管理ETL环境 计划 创建一个高层的、单页... ...
分类:其他好文   时间:2016-04-21 21:57:37    阅读次数:163
抽取、转换和装载介绍(五)抽取数据
抽取和提交数据虽然也很重要,但是只是传输和装载数据而已。 数据的清洗和归一化是ETL系统为数据增值的步骤,实际上改变了数据。 子系统4——数据清洗系统 主要用于修正脏数据,同时又希望数据仓库提供该数据的准确描述。 数据清洗的目标之一是提供一个用于数据清洗的综合架构,捕捉与数据质量相关的事件,同时在数... ...
分类:其他好文   时间:2016-04-21 20:17:39    阅读次数:147
781条   上一页 1 ... 60 61 62 63 64 ... 79 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!