把下载下来的“hadoop-2.2.0.tar.gz”拷贝到“/usr/local/hadoop/”目录下并解压: 修改系统配置文件,修改~/.bashrc文件配置“HADOOP_HOME”并把“HADOOP_HOME”下的bin文件夹加入PATH中,修改完后使用source命令...
分类:
其他好文 时间:
2014-10-09 17:16:48
阅读次数:
168
把下载下来的“hadoop-2.2.0.tar.gz”拷贝到“/usr/local/hadoop/”目录下并解压:
修改系统配置文件,修改~/.bashrc文件配置“HADOOP_HOME”并把“HADOOP_HOME”下的bin文件夹加入PATH中,修改完后使用source命令使配置生效。
接下来在hadoop目录下按照如下命令创建文件夹:
\接下来开始...
分类:
其他好文 时间:
2014-10-09 16:17:18
阅读次数:
181
把下载下来的“hadoop-2.2.0.tar.gz”拷贝到“/usr/local/hadoop/”目录下并解压:修改系统配置文件,修改~/.bashrc文件配置“HADOOP_HOME”并把“HADOOP_HOME”下的bin文件夹加入PATH中,修改完后使用source命令使配置生效。接下来在h...
分类:
其他好文 时间:
2014-10-09 15:57:48
阅读次数:
179
本文用实例介绍Spark中RDD和MapReduce相关的API。...
1.环境OS:Red Hat Enterprise Linux Server release 6.4 (Santiago)Hadoop:Hadoop 2.4.1Hive:0.11.0JDK:1.7.0_60Spark:1.1.0(内置SparkSQL)Scala:2.11.22.Spark集群规划账...
分类:
数据库 时间:
2014-10-09 01:49:27
阅读次数:
306
“决胜云计算大数据时代” Spark亚太研究院100期公益大讲堂 【第15期互动问答分享】 ? Q1:AppClient和worker、master之间的关系是什么? :AppClient是在StandAlone模式下SparkContext.runJob的时候在Client机器...
分类:
其他好文 时间:
2014-10-08 23:23:57
阅读次数:
335
“决胜云计算大数据时代”Spark亚太研究院100期公益大讲堂【第15期互动问答分享】Q1:AppClient和worker、master之间的关系是什么?:AppClient是在StandAlone模式下SparkContext.runJob的时候在Client机器上应用程序的代表,要完成程序的registerApplication等功能;当程序完成..
分类:
其他好文 时间:
2014-10-08 17:59:06
阅读次数:
166
“决胜云计算大数据时代”
Spark亚太研究院100期公益大讲堂 【第15期互动问答分享】
Q1:AppClient和worker、master之间的关系是什么?
AppClient是在StandAlone模式下SparkContext.runJob的时候...
分类:
其他好文 时间:
2014-10-08 16:47:15
阅读次数:
212
RDD是Spark最基本,也是最根本的数据抽象。http://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf 是关于RDD的论文。如果觉得英文阅读太费时间,可以看这篇译文:http://shiyanjun.cn/archives/744.html
本文也是基于这篇论文和源码,分析RDD的实现。
第一个问题,RDD是什么?Resilient Distributed Datasets(RDD,) 弹性分布式数据集。RDD是只读的、分区记录的集合。RD...
分类:
其他好文 时间:
2014-10-07 18:59:34
阅读次数:
331
java代码:注:打包的时候一个依赖jar都不要。import java.util.Arrays;import java.util.List;import java.util.regex.Pattern;import org.apache.hadoop.io.IntWritable;import o...
分类:
其他好文 时间:
2014-10-07 14:59:43
阅读次数:
200