一、神马是高大上的MapReduce MapReduce是Google的一项重要技术,它首先是一个编程模型,用以进行大数据量的计算。对于大数据量的计算,通常采用的处理手法就是并行计算。但对许多开发者来说,自己完完全全实现一个并行计算程序难度太大,而MapReduce就是一种简化并行计算的编程模型,....
分类:
其他好文 时间:
2015-02-12 17:36:50
阅读次数:
288
Hadoop学习笔记(7) ——高级编程 从前面的学习中,我们了解到了MapReduce整个过程需要经过以下几个步骤: 1.输入(input):将输入数据分成一个个split,并将split进一步拆成。 2.映射(map):根据输入的进生处理, 3.合并(combiner):合并中间相两同的key值...
分类:
其他好文 时间:
2015-02-11 23:13:52
阅读次数:
260
Hadoop学习笔记(6) ——重新认识Hadoop 之前,我们把hadoop从下载包部署到编写了helloworld,看到了结果。现是得开始稍微更深入地了解hadoop了。 Hadoop包含了两大功能DFS和MapReduce, DFS可以理解为一个分布式文件系统,存储而已,所以这里暂时就不深入研...
分类:
其他好文 时间:
2015-02-11 23:13:40
阅读次数:
341
Hadoop学习笔记(5) ——编写HelloWorld(2) 前面我们写了一个Hadoop程序,并让它跑起来了。但想想不对啊,Hadoop不是有两块功能么,DFS和MapReduce。没错,上一节我们写了一个MapReduce的HelloWorld程序,那这一节,我们就也学一学DFS程序的编写。 ...
分类:
其他好文 时间:
2015-02-11 21:56:11
阅读次数:
280
Hadoop学习笔记(4) ——搭建开发环境及编写Hello World 整个Hadoop是基于Java开发的,所以要开发Hadoop相应的程序就得用JAVA。在linux下开发JAVA还数eclipse方便。 下载 进入官网:http://eclipse.org/downloads/。 找到相应的...
分类:
其他好文 时间:
2015-02-11 21:55:47
阅读次数:
218
Hadoop学习笔记(3) ——分布式环境搭建 前面,我们已经在单机上把Hadoop运行起来了,但我们知道Hadoop支持分布式的,而它的优点就是在分布上突出的,所以我们得搭个环境模拟一下。 在这里,我们采用这样的策略来模拟环境,我们使用3台ubuntu机器,1台为作主机(master),另外2台作...
分类:
其他好文 时间:
2015-02-11 20:18:20
阅读次数:
159
一、RPC基础概念1.1 RPC的基础概念 RPC,即Remote Procdure Call,中文名:远程过程调用; (1)它允许一台计算机程序远程调用另外一台计算机的子程序,而不用去关心底层的网络通信细节,对我们来说是透明的。因此,它经常用于分布式网络通信中。RPC协议假定某些传输协议的存在.....
分类:
其他好文 时间:
2015-02-11 16:00:04
阅读次数:
190
学习笔记:王家林老师的hadoop课程链接:http://edu.51cto.com/course/course_id-1151.htmlHadoop---适合海量数据的分布式存储与计算平台存储与计算平台:Hadoop是一个平台,在这个平台上可以实现存储与计算分布式:单虚拟机程序变为多虚拟机程序,也就是我的一个计算任务可以..
分类:
其他好文 时间:
2015-01-31 02:03:51
阅读次数:
218
http://hadoop.apache.org/docs/r1.2.1/api/index.html最基本的:1.文本文件的解析2. 序列文件的解析toString会将Byte数组中的内存数据按照字节间隔以字符的形式显示出来。文本文件多事利用已有的字符处理类, 序列文件多事创建byte数组,然后将...
分类:
其他好文 时间:
2015-01-30 21:03:24
阅读次数:
200
HDFS分布式文件系统:优点:支持超大文件存储、流式访问、一次写入多次读取。缺点:不适应大量小文件、不适应低时延的数据访问、不适应多用户访问任意修改文件。1.hadoop用于大数据处理,在数据量较小时,并不适用于实时性强的任务,并不是所有的job放到hadoop上,性能都会提升。2.大量小文件的情况...
分类:
其他好文 时间:
2015-01-30 21:00:06
阅读次数:
358