第一步:通过Spark的shell测试Spark的工作Step1:启动Spark集群,这一点在第三讲讲的极为细致,启动后的WebUI如下:Step2:启动Spark Shell:此时可以通过如下Web控制台查看shell的情况:Step3:把Spark安装目录“README.md”拷贝到HDFS系统...
分类:
其他好文 时间:
2014-09-11 13:52:12
阅读次数:
228
今天在Pseudodistributed mode下启动HDFS
见配置http://blog.csdn.net/norriszhang/article/details/38659321
但是在试验向HDFS里拷贝文件时,发现出错,说没有找到namenode,用jps查看,有datanode和secondary namenode都启动起来了,但NameNode没有启动起来,用netst...
分类:
其他好文 时间:
2014-09-11 12:35:12
阅读次数:
174
MapReduce工作原理图文详解正文:1.MapReduce作业运行流程流程分析:1.在客户端启动一个作业。2.向JobTracker请求一个Job ID。3.将运行作业所需要的资源文件复制到HDFS上,包括MapReduce程序打包的JAR文件、配置文件和客户端计算所得的输入划分信息。这些文件都...
分类:
其他好文 时间:
2014-09-10 19:23:20
阅读次数:
245
一、Spark与Hadoop的关系 Spark和Hadoop只是共用了底层的MapReduce编程模型,即它们均是基于MapReduce思想所开发的分布式数据处理系统。 Hadoop采用MapReduce和HDFS技术,其MapReduce计算模型核心即Map操作和Reduce操作,在这个计算模.....
分类:
其他好文 时间:
2014-09-10 19:12:50
阅读次数:
311
翻译自:http://flume.apache.org/FlumeUserGuide.html#data-flow-model 通过翻译学习Flume,不喜勿喷。 简介 Apache Flume是一个分布式的,高可靠,高可用的系统,主要用于高效从各种数据源的收集、聚合、移动大量的日志数据 并对收集到...
分类:
其他好文 时间:
2014-09-10 14:10:40
阅读次数:
222
前言对技术,我还是抱有敬畏之心的。Hadoop概述Hadoop是一个开源分布式云计算平台,基于Map/Reduce模型的,处理海量数据的离线分析工具。基于Java开发,建立在HDFS上,最早由Google提出,有兴趣的同学可以从Google三驾马车:GFS,mapreduce,Bigtable开始了...
分类:
其他好文 时间:
2014-09-10 13:52:40
阅读次数:
298
选项名称使用格式含义-ls-ls 查看指定路径的当前目录结构-lsr-lsr 递归查看指定路径的目录结构-du-du 统计目录下个文件大小-dus-dus 汇总统计目录下文件(夹)大小-count-count [-q] 统计文件(夹)数量-mv-mv 移动-cp-cp 复制-rm-rm [-sk.....
分类:
其他好文 时间:
2014-09-10 12:07:20
阅读次数:
133
在测试 HDFS2.0 的 NameNode HA 的时候,并发put 700M的文件,然后 Kill 主 NN ;发现备 NN 切换后进程退出。尝试了多种方法终于恢复,原因还在分析中。...
分类:
其他好文 时间:
2014-09-10 10:54:10
阅读次数:
490