一、Hive:一个牛逼的数据仓库 1.1 神马是Hive? Hive 是建立在 Hadoop 基础上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称 ...
分类:
其他好文 时间:
2017-11-03 12:59:30
阅读次数:
215
1. 两者分别是什么? Apache Hive是一个构建在Hadoop基础设施之上的数据仓库。通过Hive可以使用HQL语言查询存放在HDFS上的数据。HQL是一种类SQL语言,这种语言最终被转化为Map/Reduce. 虽然Hive提供了SQL查询功能,但是Hive不能够进行交互查询--因为它只能 ...
分类:
其他好文 时间:
2017-10-12 16:12:37
阅读次数:
120
1.先进入到Hadoop用户下,然后:cd/usr/local/hadoop-0.20.2-cdh3u5/ls一下这时候会看见一个bin目录,bin目录下的,都是我们的命令。像JDK里面,bin目录里面不也是我们的命令嘛,像Java、javac。所以同样的,我们的Hadoop命令也在bin目录下。2.cdbinls一下Start-all.sh(开启集..
分类:
其他好文 时间:
2017-10-04 20:00:39
阅读次数:
161
map端的联结比reduce端的联结实现起来复杂,而且限制也多,一般我们将小表置于内存中, 对于大表的一个纪录我们在内存中查找即可。 改例子摘自hadoop基础教程, 我们实现sales和accounts的联结, 其中sales记录的顾客的销售信息,accounts纪录的是用户的账户信息,我们的目的 ...
分类:
其他好文 时间:
2017-09-02 13:01:20
阅读次数:
225
配置 ubuntu14.04 伪分布式 hadoop1.04 wordcount入门程序, 摘自hadoop基础教程 ...
分类:
其他好文 时间:
2017-09-01 23:07:11
阅读次数:
124
此例子摘自hadoop基础教程。 其中sales.txt内容如下 accounts.txt内容如下: 我们的目标是通过reduce端联结求出每个客户姓名 消费的次数 消费额 代码如下: 结果截图 ...
分类:
其他好文 时间:
2017-09-01 00:02:39
阅读次数:
170
1. 两者分别是什么? Apache Hive是一个构建在Hadoop基础设施之上的数据仓库。通过Hive可以使用HQL语言查询存放在HDFS上的数据。HQL是一种类SQL语言,这种语言最终被转化为Map/Reduce. 虽然Hive提供了SQL查询功能,但是Hive不能够进行交互查询--因为它只能 ...
分类:
其他好文 时间:
2017-08-27 13:27:40
阅读次数:
254
一.NameNode,SeconderyNamenode,DataNode NameNode,DataNode,SeconderyNamenode都是进程,运行在节点上。 1.NameNode:hadoop的主节点, 保存HDFS的元数据信息 1.fsimage - 它是在NameNode启动时对整 ...
分类:
其他好文 时间:
2017-07-31 15:57:04
阅读次数:
150
一、Apache Hadoop 历史发展 Apache Hadoop 的雏形开始于2002年的 Apache 的 Nutch。Nutch 是一个开源 Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具,包括全文搜索和 Web 爬虫。 随后在 2003 年 Google 发表了一篇 ...
分类:
其他好文 时间:
2017-07-08 20:19:10
阅读次数:
126
hadoop家族产品 1)Apache Hadoop:是Apache开源组织的一个分布式计算开源框架,提供了一个分布式文件系统子项目(HDFS)和支持MapReduce分布式计算的软件框架。 2)Apache Hive:是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射成一张数据库表, ...
分类:
其他好文 时间:
2017-06-16 16:40:19
阅读次数:
119