Hadoop2/cdh4集群安装CDH是Cloudera完全开源的Hadoop分布式系统架构,为了满足企业的需求而特别构建的系统。即一个开源的企业级分布式存储系统。全称:ClouderaHadoop。它是在ApacheHadoop基础上打入了很多patch。使之性能更好,更加满足生产环境。Hadoop介绍Hadoop是apache的..
分类:
其他好文 时间:
2014-08-02 07:45:03
阅读次数:
366
对于刚接触大数据的用户来说,要想区分Hive与HBase是有一定难度的。本文将尝试从其各自的定义、特点、限制、应用场景等角度来进行分析,以作抛砖引玉之用。Hive是什么?Apache Hive是一个构建于Hadoop(分布式系统基础架构)顶层的数据仓库,注意这里不是数据库。Hive可以看作是用户编程...
分类:
其他好文 时间:
2014-07-22 22:45:54
阅读次数:
257
先简单的理解,以后补充:为了解决hadoop分布式系统的一致性问题 ,有很多人提出很多protocol,其中就有有名的Paxos算法(Latex作者提出,算法需要学习),但是Chubby并不是一个算法或者protocol,它是一项service,是一个lock service,这个service的实...
分类:
其他好文 时间:
2014-07-14 20:52:46
阅读次数:
250
Spark1.1发布后会支持Spark SQL CLI , Spark SQL的CLI会要求被连接到一个Hive Thrift Server上,来实现类似hive shell的功能。...
分类:
数据库 时间:
2014-07-10 21:14:38
阅读次数:
737
以下图1是hadoop生态图,通俗的说,就是hadoop核心模块和衍生的子项目。 图 1 Hadoop生态系统图由图可知,hadoop生态系统包括以下成员:① 各种浏览器,产生海量的Web数据;② Nutch项目,一个快速搜索海量网页的开源项目③ HDFS,Hadoop分布式文件系统,大数据的存储系...
分类:
其他好文 时间:
2014-07-10 15:32:23
阅读次数:
189
现在 Hadoop 已经发展成为包含多个子项目的集合。虽然其核心内容是 MapReduce 和Hadoop 分布式文件系统(HDFS),但 Hadoop 下的Common 、Avro、 Chukwa、Hive 、HBase等子项目也是不可或缺的。它们提供了互补性服务或在核心层上提供了更高层的服务。以...
分类:
其他好文 时间:
2014-07-10 14:57:00
阅读次数:
333
Hadoop分布式平台的大数据解决方案
讲师:迪伦
对这个课程有兴趣的可以加我qq2059055336联系我
1 课程背景
GREENPLUM适用场景
Greenplum的架构采用了MPP(大规模并行处理)。在 MPP 系统中,每个 SMP 节点也可以运行自己的操作系统、数据库等,它的特点主要就是查询速度快,数据装载速度快,批量DML处理快。而且性能可以随着硬件的添加,呈线性增加...
分类:
其他好文 时间:
2014-07-09 11:36:26
阅读次数:
205
引言
Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束,来实现流式读取文件...
分类:
其他好文 时间:
2014-06-28 07:48:49
阅读次数:
253
Hive 是基于Hadoop 构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据,可以将结构
化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行,通过自己的SQL 去查询分析需
要的内容,这套SQL 简称Hive SQL,使不熟悉mapreduce 的用户很方便的利用SQL 语言...
分类:
数据库 时间:
2014-06-22 22:41:52
阅读次数:
342