MapReduce工作原理图文详解正文:1.MapReduce作业运行流程流程分析:1.在客户端启动一个作业。2.向JobTracker请求一个Job ID。3.将运行作业所需要的资源文件复制到HDFS上,包括MapReduce程序打包的JAR文件、配置文件和客户端计算所得的输入划分信息。这些文件都...
分类:
其他好文 时间:
2014-09-10 19:23:20
阅读次数:
245
一、Spark与Hadoop的关系 Spark和Hadoop只是共用了底层的MapReduce编程模型,即它们均是基于MapReduce思想所开发的分布式数据处理系统。 Hadoop采用MapReduce和HDFS技术,其MapReduce计算模型核心即Map操作和Reduce操作,在这个计算模.....
分类:
其他好文 时间:
2014-09-10 19:12:50
阅读次数:
311
前言对技术,我还是抱有敬畏之心的。Hadoop概述Hadoop是一个开源分布式云计算平台,基于Map/Reduce模型的,处理海量数据的离线分析工具。基于Java开发,建立在HDFS上,最早由Google提出,有兴趣的同学可以从Google三驾马车:GFS,mapreduce,Bigtable开始了...
分类:
其他好文 时间:
2014-09-10 13:52:40
阅读次数:
298
选项名称使用格式含义-ls-ls 查看指定路径的当前目录结构-lsr-lsr 递归查看指定路径的目录结构-du-du 统计目录下个文件大小-dus-dus 汇总统计目录下文件(夹)大小-count-count [-q] 统计文件(夹)数量-mv-mv 移动-cp-cp 复制-rm-rm [-sk.....
分类:
其他好文 时间:
2014-09-10 12:07:20
阅读次数:
133
在测试 HDFS2.0 的 NameNode HA 的时候,并发put 700M的文件,然后 Kill 主 NN ;发现备 NN 切换后进程退出。尝试了多种方法终于恢复,原因还在分析中。...
分类:
其他好文 时间:
2014-09-10 10:54:10
阅读次数:
490
1. Blocks(块)
硬盘上有块,代表能够读取和写入的最小的data单位,通常是512字节。
基于单硬盘的文件系统也有块的概念,通常是把硬盘上的一组块集合在一起成为一个块,一般有几KB大小。
这些对于文件系统的使用者都是透明的,使用者只知道往硬盘上写了一定大小的文件,或从硬盘上读了一定大小的文件。当然有些维护命令,比如df和fsck,就是在块级上的操作。
HDFS也有块(blo...
分类:
其他好文 时间:
2014-09-10 10:53:00
阅读次数:
312
前面介绍了sparkSQL的运行架构,后面将介绍sparkSQL的使用。在介绍sparkSQL的使用之前,我们需要搭建一个sparkSQL的测试环境。本次测试环境涉及到hadoop之HDFS、hive、spark以及相关的数据文件,相关的信息如下:
hadoop版本为2.2.0hive版本为0.13spark版本为1.1.0-rc3MySQL版本为5.6.12测试数据下载地点:http:...
分类:
数据库 时间:
2014-09-10 09:39:40
阅读次数:
378
HDFS 的可靠性主要有一下几点:冗余副本策略机架策略心跳机制安全模式效验和回收站元数据保护快照机制1.冗余副本策略 可以在hdfs-site.xml中设置复制因子指定副本数量 所有数据块都可副本 DataNode启动时,遍历本地文件系统,产生一份HDFS数据块和本地文件的对应关系列表(blo...
分类:
其他好文 时间:
2014-09-09 19:56:19
阅读次数:
2227
一. 前提和设计目标1. 硬件错误是常态,因此需要冗余,这是深入到HDFS骨头里面去了 HDFS可能由成百上千的服务器所构成,每个服务器上存储着文件系统的部分数据。我们面对的现实是构成系统的组件数目是巨大的,而且任一组件都有可能失效,这意味着总是有一部分HDFS的组件是不工作的。因此错误检测和...
分类:
其他好文 时间:
2014-09-09 19:47:09
阅读次数:
276
为什么会引入RPC:RPC采用客户机/服务器模式。请求程序就是一个客户机,而服务提供程序就是一个服务器。当我们讨论HDFS的,通信可能发生在:Client-NameNode之间,其中NameNode是服务器Client-DataNode之间,其中DataNode是服务器DataNode-NameNo...
分类:
其他好文 时间:
2014-09-09 19:43:49
阅读次数:
200