yarn是一个分布式的资源管理系统。 它诞生的原因是原来的MapReduce框架的一些不足: 1、JobTracker单点故障隐患 2、JobTracker承担的任务太多,维护Job状态,Job的task的状态等 3、在taskTracker端,使用map/reduce task表示资源过于简单,没 ...
分类:
其他好文 时间:
2016-05-10 02:02:22
阅读次数:
148
HBase是什么?
HBase是Apache Hadoop中的一个子项目,Hbase依托于Hadoop的HDFS作为最基本存储基础单元,通过使用hadoop的DFS工具就可以看到这些这些数据 存储文件夹的结构,还可以通过Map/Reduce的框架(算法)对HBase进行操作,如右侧的图所示:
为什么采用HBase?
HBase 不同于一般的关系数据库,它是一个适合...
分类:
其他好文 时间:
2016-05-06 15:33:53
阅读次数:
202
简单说,对 Stream 的使用就是实现一个 filter-map-reduce 过程,产生一个最终结果,或者导致一个副作用(side effect)。
当我们使用一个流的时候,通常包括三个基本步骤:
获取一个数据源(source)→ 数据转换→执行操作获取想要的结果,每次转换原有 Stream 对象不改变,返回一个新的 Stream 对象(可以有多次转换),这就允许对其操作可以像链条一样排列,变成一个管道。
流的操作主要有:
Intermediate:
map (mapToInt, flatMap 等)、...
分类:
编程语言 时间:
2016-05-03 18:31:03
阅读次数:
326
解读Google分布式锁服务 背景介绍 在2010年4月,Google的网页索引更新实现了实时更新,在今年的OSDI大会上,Google首次公布了有关这一技术的论文。 在此之前,Google的索引更新,采用的的批处理的方式(map/reduce),也就是当增量数据达到一定规模之后,把增量数据和全量索 ...
分类:
其他好文 时间:
2016-04-30 14:10:33
阅读次数:
158
1.把插件hadoop-eclipse-plugin-2.6.2.jar拷贝到eclipse安装目录下的plugins中
2.重启一下Eclipse
配制hadoop
3.进入map/reduce视图模式
4.向hadoop分布式存储系统中存入数据
5.连接hadoop
6.创建hadoop工程
7.创建类MyWordCount.javapackage co...
hadoop namenode -format 格式化分布式文件系统start-all.sh 启动所有Hadoop守护进程stop-all.sh 停止所有Hadoop守护进程start-mapred.sh 启动Map/Reduce守护进程stop-mapred.sh 停止Map/Reduce守护进程 ...
分类:
其他好文 时间:
2016-04-23 19:44:22
阅读次数:
132
Map-Reduce是一种计算模型,简单的说就是将大批量的工作(数据)分解(MAP)执行,然后再将结果合并成最终结果(REDUCE)。 MongoDB提供的Map-Reduce非常灵活,对于大规模数据分析也相当实用。 MapReduce 命令 以下是MapReduce的基本语法: 使用 MapRed ...
分类:
数据库 时间:
2016-04-19 19:34:14
阅读次数:
246
在Hadoop的mapper类中,有4个主要的函数,分别是:setup,clearup,map,run。代码如下: protected void setup(Context context) throws IOException, InterruptedException { // NOTHING ...
分类:
其他好文 时间:
2016-04-18 11:46:01
阅读次数:
117
Hadoop简介Hadoop就是一个实现了Google云计算系统的开源系统,包括并行计算模型Map/Reduce,分布式文件系统HDFS,以及分布式数据库Hbase,同时Hadoop的相关项目也很丰富,包括ZooKeeper,Pig,Chukwa,Hive,Hbase,Mahout,flume等.这 ...
分类:
其他好文 时间:
2016-04-18 11:27:43
阅读次数:
230
摘要:Hive查询生成多个map reduce job,一个map reduce job又有map,reduce,spill,shuffle,sort等多个阶段,所以针对hive查询的优化可以大致分为针对MR中单个步骤的优化, 针对MR全局的优化以及针对整个查询的优化。 一个Hive查询生成多个Ma ...
分类:
数据库 时间:
2016-04-15 11:43:57
阅读次数:
226