目的
使用 CLI MiniCluster, 用户可以简单地只用一个命令就启动或关闭一个单一节点的Hadoop集群,不需要设置任何环境变量或管理配置文件。 CLI MiniCluster 同时启动一个 YARN/MapReduce 和 HDFS 集群。
这对那些想要快速体验一个真实的Hadoop集群或是测试依赖明显的Hadoop函数的非Java程序 的用户很有用。
Hadoop Ta...
分类:
其他好文 时间:
2014-05-18 18:41:39
阅读次数:
319
版权所有: zhe-jiang.he@hp.com 严禁转载!
1.安装插件
准备程序:
eclipse-3.3.2(这个版本的插件只能用这个版本的eclipse)
hadoop-0.20.2-eclipse-plugin.jar (在hadoop-0.20.2/contrib/eclipse-plugin目录下)
将hadoop-0.20.2-eclipse-plugin.j...
分类:
系统相关 时间:
2014-05-18 07:32:13
阅读次数:
396
因为毕业设计上需要将控制台的任务实时输出到界面上,而且那是个Hadoop的mapreduce任务,一跑半个小时的节奏,所以需要用到多线程并随时读取返回的数据,百度了没找到合适的方法,于是被逼无奈编写了这个十分简单的多线程操作工具类。大概的功能就是可以执行一个特定的线程(线程必须调用本类的方法才能实现...
分类:
编程语言 时间:
2014-05-15 21:50:11
阅读次数:
366
数据导入HBase最常用的三种方式及实践分析
摘要:要使用Hadoop,需要将现有的各种类型的数据库或数据文件中的数据导入HBase。一般而言,有三种常见方式:使用HBase的API中的Put方法,使用HBase
的bulk load工具和使用定制的MapReduce Job方式。本文均有详细描述。
【编者按】要使用Hadoop,数据合并至...
分类:
其他好文 时间:
2014-05-15 18:15:19
阅读次数:
495
当今信息化时代充斥着大量的数据。海量数据存储是一个必然的趋势。然而数据如何的存储和查询,尤其是当今非结构化数据的快速增长,对其数据的存储,处理,查询。使得如今的 关系数据库存储带来了巨大的挑战。分布存储技术是云计算的基础,主要研究如何存储、组织和管理数据中心上的大规模海量数据.由于面临的数据规模和用户规模更加庞大,在可扩展性、容错性以及成本控制方面面临着更加严峻的挑战[1]。
...
分类:
其他好文 时间:
2014-05-15 18:13:55
阅读次数:
438
简介
可插入的 shuffle 和 sort 功能,允许在shuffle 和 sort 逻辑中用可选择的实现类替换。这个情况的例子是:用一个不是HTTP的应用协议,如RDMA来 shuffle 从Map节点中到Reducer节点的数据;或者用自定义的允许 Hash聚合和Limit-N查询的算法来代替sort逻辑。
重要: 可插入的 shuffle sort 功能是实验性的、不稳定。这意味着提...
分类:
其他好文 时间:
2014-05-15 13:25:05
阅读次数:
233
版本:CDH5.0.0,HDFS:2.3.0,Mapreduce:2.3.0,Yarn:2.3.0。场景描述:求一组数据中按照不同类别的最大值,比如,如下的数据:data1:A,10
A,11
A,12
A,13
B,21
B,31
B,41
B,51data2:A,20
A,21
A,22
A,23
B,201
B,301
B,401
B,501最后输出为:A,23
B,501假如这样的逻辑的m...
分类:
其他好文 时间:
2014-05-15 08:15:04
阅读次数:
374
hadoop分割与读取输入文件的方式被定义在InputFormat接口的一个实现中,TextInputFormat是默认的实现,当你想要一次获取一行内容作为输入数据时又没有确定的键,从TextInputFormat返回的键为每行的字节偏移量,但目前没看到用过
以前在mapper中曾使用LongWritable(键)和Text(值),在TextInputFormat中,因为键是字节偏移量,可以是L...
分类:
移动开发 时间:
2014-05-15 01:31:37
阅读次数:
454
本篇介绍MapReduce的一些高级特性,如计数器、数据集的排序和连接。计数器是一种收集作业统计信息的有效手段,排序是MapReduce的核心技术,MapReduce也能够执行大型数据集间的“”连接(join)操作。...
分类:
其他好文 时间:
2014-05-14 23:53:44
阅读次数:
553