最近研究了下Spark如何读写压缩格式的文件,主要有如下三种方式,这里以lzo方式压缩为例/*******************oldhadoopapi*************************/
valconfHadoop=newJobConf
confHadoop.set("mapred.output.compress","true")
confHadoop.set("mapred.output.compression.c..
由于单台机器的计算能力和I/O能力已经无法满足不断增长的数据处理需求,越来越多的组织需要将应用扩展到更大规模的集群上。但在集群环境中,可编程性方面将遇到以下几个挑战:
并行编程问题;为了将应用并行化,需要并行编程模型的支撑。
容错和慢节点问题;当集群规模相当大时,这个问题也是非常严重的。
多用户共享集群要求能具备弹性计算的能力,此外还要考虑干扰问题。
结果就是出现了很多编程模型,首先是MapReduce使数据批处理变得简单通用同时能处理容错。但很难处理其它类型的负载,于是就出现了各种各样专用的编程模型:
...
分类:
其他好文 时间:
2014-08-06 19:28:12
阅读次数:
285
3.点击“Finish”完成虚拟系统的创建,如下图所示:点击我们创建的Ubuntu,如下所示点击“CD/DVD(IDE)”进入如下界面选择我们的Ubuntu的ISO的具体存放路径,选择好后如下图所示:点击“OK”完成设置;点击“Memory”,进入如下界面:此时把我们虚拟的内存设置为2G,如下所示:...
分类:
其他好文 时间:
2014-08-06 18:36:01
阅读次数:
195
Spark应用程序编写,执行应该注意的问题。...
分类:
其他好文 时间:
2014-08-05 22:49:32
阅读次数:
272
随着处理器提升速度下降和数据量的不断增长,很多公司和组织(既有互联网公司也有传统的企业还有一些研究机构)都要求他们的应用能够Scale out到更大的分布式系统上(比如整个数据中心)。这些应用又分为以下几种类型:...
分类:
其他好文 时间:
2014-08-05 19:28:10
阅读次数:
245
WEB UI和Metrics子系统为外部观察监测Spark内部运行情况提供了必要的窗口,本文将简略的过一下其内部代码实现。
分类:
Web程序 时间:
2014-08-05 11:06:49
阅读次数:
311
Unbuntu系统是我们开发Hadoop时最常用的操作系统,下面带领大家一步步完成Vmware虚拟机下Unbuntu系统的安装创建Vmware中的虚拟系统:我们选择的是“Typical”的方式,点击“Next”进入下一步:选择稍后安装操作系统,点击“Next”进入下一步:选择安装Linux系统的Ub...
分类:
其他好文 时间:
2014-08-05 11:04:59
阅读次数:
309
Worker所起的作用有以下几个:
1. 接受Master的指令,启动或者杀掉Executor
2. 接受Master的指令,启动或者杀掉Driver
3. 报告Executor/Driver的状态到Master
4. 心跳到Master,心跳超时则Master认为Worker已经挂了不能工作了
5. 向GUI报告Worker的状态...
分类:
其他好文 时间:
2014-08-05 00:50:08
阅读次数:
364
本文主要介绍了Spark SQL里目前的CLI实现,代码之后肯定会有不少变动,所以我关注的是比较核心的逻辑。主要是对比了Hive CLI的实现方式,比较Spark SQL在哪块地方做了修改,哪些地方与Hive CLI是保持一致的。
基本上Spark SQL在CLI这块的实现很靠近Hive Service项目里的CLI模块,主要类继承体系、执行逻辑差不多都一样。Spark SQL修改的关键逻辑在CLIService内的SessionManager内的OperationManager里,将非元数据查询操作的q...
分类:
数据库 时间:
2014-08-05 00:44:58
阅读次数:
939