任何比较关注业界新闻的人,都会知道最近一两年IT行业的几个关键字:移动端、LBS、SNS和大数据。前边三个,大家应该是很熟悉的,因为身边早已充斥着相关的应用。唯独最后一个大数据,在大部分人眼中却是非常陌生的,除了知道如数据挖掘、智能推荐等几个看似非常高深的词汇之外,却是不知其里的。 首先,笔者需要告...
分类:
其他好文 时间:
2015-02-13 23:43:48
阅读次数:
358
一、Data仓库的架构 Data仓库(Data Warehouse DW)是为了便于多维分析和多角度展现而将Data按特定的模式进行存储所建立起来的关系型Datcbase,它的Data基于OLTP源Systam。Data仓库中的Data是细节的、集成的、面向主题的,以OLAPSystam的分析需求....
分类:
其他好文 时间:
2015-02-12 18:15:14
阅读次数:
136
背景:
今日在某集市执行一hivesql,sql没有问题,在数据仓库里执行没有问题。
但是在某集市执行后,一直提示UDFArgumentTypeException No argument is expected,很蛋疼。
其中,这个sql涉及到到row_number()、regexp_replace等函数。
分析:
经sql分段排查,是由于使用到row_number()函数才报错...
分类:
其他好文 时间:
2015-02-12 16:16:38
阅读次数:
337
Infobright是一个与MySQL集成的开源数据仓库(Data Warehouse)软件,可作为MySQL的一个存储引擎来使用,SELECT查询与普通MySQL无区别。 优点: 查询性能高:百万、千万、亿级记录数条件下,同等的SELECT查询语句,速度比MyISAM、InnoDB等普通的MyS....
分类:
其他好文 时间:
2015-02-07 21:35:02
阅读次数:
158
在进行数据分析之前,我们必须了解相关的基础理论知识数据仓库的理论知识1:数据仓库的定义 数据仓库是一个面向主题的、集成的、稳定的,反映历史变化的,随着时间的流逝发生变化的集合,它主要用来支持企业管理人员的决策分析1.1 面向主题根据原系统业务数据的特点进行主题的抽取和确定每个主题所包含的数据内容,例...
分类:
其他好文 时间:
2015-02-06 16:33:05
阅读次数:
179
Hive (http://en.wikipedia.org/wiki/Apache_Hive )(非严格的原文顺序翻译) Apache Hive是一个构建在Hadoop上的数据仓库框架,它提供数据的概要信息、查询和分析功能。最早是Facebook开发的,现在也被像Netflix这样的公司使用。Ama...
分类:
数据库 时间:
2015-02-06 06:59:34
阅读次数:
283
1. 两者分别是什么? Apache Hive是一个构建在Hadoop基础设施之上的数据仓库。通过Hive可以使用HQL语言查询存放在HDFS上的数据。HQL是一种类SQL语言,这种语言最终被转化为Map/Reduce. 虽然Hive提供了SQL查询功能,但是Hive不能够进行交互查询--因为它只能...
分类:
其他好文 时间:
2015-02-04 23:15:56
阅读次数:
433
数据预处理章节,整理于《数据挖掘·概念与技术》第三章,如有错误,请指正,谢谢~1、概述 数据清理可以去除数据中的噪声,纠正不一致。数据集成将数据由多个数据源合并成一个一致的数据进行存储,如数据仓库。数据规约可以通过如聚集,删除冗余特征或聚类降低数据的规模。数据变换(如规约化)可以把数据压缩到较小的....
分类:
其他好文 时间:
2015-01-31 15:59:47
阅读次数:
238
1、产品概述
Hive作为大数据时代的数据仓库工具,使我们分析处理海量结构化数据成为可能。越来越多的公司和机构都将Hive作为应对大数据分析的强有力工具。但使用中,比较明显的问题便是当存在多个应用同时使用同一Hive的时候,如何有效控制彼此的数据安全,如何更方便使用Hive UDF的扩展机制。
当然,作为大数据平台开发过程中也同样遇到这些问题。整个公司不同业务方的数据汇聚到数据平台后,对数据的...
分类:
其他好文 时间:
2015-01-27 11:15:53
阅读次数:
192
一:为什么要预处理数据?(1)现实世界的数据是肮脏的(不完整,含噪声,不一致)(2)没有高质量的数据,就没有高质量的挖掘结果(高质量的决策必须依赖于高质量的数据;数据仓库须要对高质量的数据进行一致地集成)(3)原始数据中存在的问题:不一致 —— 数据内含出现不一致情况反复不完整 —— 感兴趣的属性没...
分类:
其他好文 时间:
2015-01-27 10:46:58
阅读次数:
215