从《Hadoop权威指南》选取了一个小案例,在Hadoop集群环境中运行。1、新建JAVA类,保存书中源代码。[huser@master bin]$ vi
URLCat.javaimport java.io.InputStream;import java.net.URL;import org.apa...
分类:
其他好文 时间:
2014-05-14 03:52:36
阅读次数:
457
本文记录Ant编译MapReduce程序的过程。程序使用《Hadoop MapReduce
Cookbook》中的示例代码。1、安装AntAnt项目主页:http://ant.apache.org/下载二进制安装包,例如apache-ant-1.9.4-bin.tar.gz,上传到Hadoop集群环...
分类:
其他好文 时间:
2014-05-12 20:44:36
阅读次数:
398
Thrift 是什么?
Thrift源于大名鼎鼎的facebook之手,在2007年facebook提交Apache基金会将Thrift作为一个开源项目,对于当时的facebook来说创造thrift是为了解决facebook系统中各系统间大数据量的传
输通信以及系统之间语言环境不同需要跨平台的特性...
分类:
其他好文 时间:
2014-05-12 20:35:23
阅读次数:
296
架 构 描 述
01、数据层,数据源,有形资源入库,无形资源整理,对外搜索引擎,对内平台搜索,数据类型(文字、图片、声音、视频、组合),数据时空优化,数据安全方案(数据进站关卡,数据出战关卡),数据并发方案,大数据分...
分类:
其他好文 时间:
2014-05-12 05:14:11
阅读次数:
413
Web应用代理是YARN的一部分. 默认地,它会作为 Resource Manager(RM)的一部分来运行, 但是也可以配置成独立运行的模式。使用代理的原因就是降低通过YARN的web攻击的可能性。
在YARN中,Application Master(AM) 有责任提供web界面并把链接发给RM。这给一些可能的问题打开了大门。 RM 作为一个可信的用户在运行,访问那个web地址的用户会认...
分类:
Web程序 时间:
2014-05-11 20:27:52
阅读次数:
323
Hadoop集群(第9期)_MapReduce初级案例1、数据去重
"数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。下面就进入这个实例的MapReduce程序设计。1.1
实例描述 对数.....
分类:
其他好文 时间:
2014-05-11 16:02:24
阅读次数:
538
Hadoop Streaming 是一个工具, 代替编写Java的实现类,而利用可执行程序来完成map-reduce过程
工作流程 :
InputFile --> mappers --> [Partitioner] --> reducers -->
outputFiles
理解 :
1 输入文件,可以是指定远程文件系统内的文件夹下的 *
2 通过集群自己分解到各个PC...
分类:
编程语言 时间:
2014-05-11 14:46:35
阅读次数:
519
#pragma pack (n) /*指定按n字节对齐*/ 不写这句默认n =8
设真正的对齐长度为m字节
如果n>结构体中数据类型(包括类类型)长度最大的数据类型长度,m = 结构体中最大数据类型长度
否则 m = n
总之,真正的对齐长度m为指定对齐长度n与结构体中最大类型长度中的较小值。
规则:
1. 结构体变量的首地址能够被m所整除;
2. 结构体每个...
分类:
其他好文 时间:
2014-05-11 13:32:36
阅读次数:
299
目的
此文档描述了 FairScheduler,
Hadoop 的一个可插入式的调度器,允许 YARN 应用在一个大集群中公平地共享资源。
简介
公平调度是一种分配资源给应用的方法,以致到最后,平均上所有应用获得相等的资源。 Hadoop NextGen 能够调度多种类型的资源。默认的, Fair Scheduler 仅以内存为基础作公平调度决策。可以用Ghodsi 等开发的 ...
分类:
其他好文 时间:
2014-05-11 13:05:57
阅读次数:
393
1 Lambda架构介绍
Lambda架构划分为三层,分别是批处理层,服务层,和加速层。最终实现的效果,可以使用下面的表达式来说明。
query = function(alldata)
1.1 批处理层
批处理层主用由Hadoop来实现,负责数据的存储和产生任意的视图数据。计算视图数据是一个联系操作,因此,当新数据到达时,使用MapReduce迭代地将数据聚集到视图中。 从整个数据集中计算...
分类:
其他好文 时间:
2014-05-11 07:29:44
阅读次数:
419