1.1 Spark交互式分析
运行Spark脚本前,启动Hadoop的HDFS和YARN。Spark的shell提供
了简单方式去识别API,同样也有一个强大的工具去交互式地分析数据。两种语言有这样的交换能力,分别是Scala 和 Python。下面将演示如何使用Python来分析数据文件。
进入Spark安装主目录,输入下面的命令,python命令行模式将会启动。
./bin/pysp...
分类:
其他好文 时间:
2014-07-22 00:29:38
阅读次数:
239
把CDH搭建起来了,跑其中的例子程序word-count。在控制台界面一直显示map 0% ?reduce 0% , 通过web页面查看job的状态一直是run,但是map没有执行。感觉是是资源的分配有问题。接着查看了任务的日志。 2014-07-04...
分类:
其他好文 时间:
2014-07-21 10:27:54
阅读次数:
822
配置建议: 1. ????In MR1, the mapred.tasktracker.map.tasks.maximum and mapred.tasktracker.reduce.tasks.maximum properties dictated how many map and reduce slots each TaskTracker had. ????T...
分类:
其他好文 时间:
2014-07-21 10:14:00
阅读次数:
279
2014年2月20日,Hadoop 2.3.0版本发布,这是apache 在2014年发布的第一个Hadoop版本,揭开了Hadoop 2014发展的序幕。该版本引入了很多大家期待已久的特性,包括HDFS 的异构层次化存储架构、DataNode Cache,YARN的单点故障解决方案,以及MapRe...
分类:
其他好文 时间:
2014-07-19 18:04:01
阅读次数:
239
本文介绍Hadoop YARN最近版本中增加的几个非常有用的特性,包括:(1)ResourceManager HA在apache hadoop 2.4或者CDH5.0.0版本之后,增加了ResourceManger HA特性,支持基于Zookeeper的热主备切换,具体配置参数可以参考Clouder...
分类:
其他好文 时间:
2014-07-19 00:28:52
阅读次数:
426
public class FileSplit extends InputSplit implements Writable { private Path file; private long start; private long length; private String[] hosts; pu...
分类:
其他好文 时间:
2014-07-16 18:32:45
阅读次数:
236
前言: CDH4不带yarn和spark, 因此需要自己搭建spark集群. 这边简单描述spark集群的安装过程, 并讲述spark的standalone模式, 以及对相关的脚本进行简单的分析.spark官网: http://spark.apache.org/downloads.html*)安装....
分类:
其他好文 时间:
2014-07-16 16:56:22
阅读次数:
235
1、YARN或将成为Hadoop新发力点http://www.csdn.net/article/2013-06-27/2816031-hadoop-yarn2、更快、更强——解析Hadoop新一代MapReduce框架Yarnhttp://www.csdn.net/article/2014-02-1...
分类:
其他好文 时间:
2014-07-16 16:45:34
阅读次数:
198
本文介绍了 Hadoop 自 0.23.0 版本后新的 map-reduce 框架(Yarn) 原理,优势,运作机制和配置方法等;着重介绍新的 yarn 框架相对于原框架的差异及改进;并通过 Demo 示例详细描述了在新的 yarn 框架下搭建和开发 hadoop 程序的方法。读者通过本文中新旧 h...
分类:
其他好文 时间:
2014-07-16 15:55:52
阅读次数:
325
public List getSplits(JobContext job) throws IOException { long minSize = Math.max(getFormatMinSplitSize(), getMinSplitSize(job)); long ...
分类:
其他好文 时间:
2014-07-16 00:19:43
阅读次数:
324