RDD的分区函数 |
RDD的基本转换操作 |
repartition 和 coalesce |
randomSplit和glom |
mapPartitions和mapPart...
分类:
其他好文 时间:
2016-09-15 11:14:02
阅读次数:
272
RDD基础:Spark中RDD是不可变的分布式对象集合。每个RDD被分为多个分区,这些分区运行在集群中的不同节点上。RDD可以包含任意类型的对象(甚至可以是自定义的)。
分类:
其他好文 时间:
2016-09-04 00:21:11
阅读次数:
149
介绍: RDD--Resilient Distributed Dataset Spark中RDD是一个不可变的分布式对象集合。每个RDD被分为多个分区,这些分区运行在集群的不同的节点上。RDD可以包含Python、Java、Scala中的任意类型的对象,以及自定义的对象。 创建RDD的两种方法: 1 ...
分类:
其他好文 时间:
2016-06-22 23:24:26
阅读次数:
238
来自:http://my.oschina.net/scipio/blog/284957#OSC_h5_11 目录[-] 1、准备文件 2、加载文件 3、显示一行 4、函数运用 (1)map (2)collecct (3)filter (4)flatMap (5)union (6) join (7)l ...
分类:
其他好文 时间:
2016-05-13 07:43:30
阅读次数:
235
本节课通过二个部分阐述SparkStreaming的理解:
一、解密SparkStreaming另类在线实验
二、瞬间理解SparkStreaming本质
Spark源码定制班主要是自己做发行版、自己动手改进Spark源码,通常在电信、金融、教育、医疗、互联网等领域都有自己不同的业务,如果Sprak官方版本没有你需要的业务功能,你自己可以定制、扩展Spark的功能,满足公司的业务...
分类:
其他好文 时间:
2016-05-12 18:15:11
阅读次数:
190
本节课通过二个部分阐述SparkStreaming的理解: 一、解密SparkStreaming另类在线实验 二、瞬间理解SparkStreaming本质 Spark源码定制班主要是自己做发行版、自己动手改进Spark源码,通常在电信、金融、教育、医疗、互联网等领域都有自己不同的业务,如果Sprak ...
分类:
其他好文 时间:
2016-05-07 14:48:37
阅读次数:
115
1.RDD介绍: RDD,弹性分布式数据集,即分布式的元素集合。在spark中,对所有数据的操作不外乎是创建RDD、转化已有的RDD以及调用RDD操作进行求值。在这一切的背后,Spark会自动将RDD中的数据分发到集群中,并将操作并行化。 Spark中的RDD就是一个不可变的分布式对象集合。每个RD...
分类:
编程语言 时间:
2015-11-30 20:11:12
阅读次数:
319
1、学习Spark必须要深入理解RDD编程模型。为什么呢?
RDD是Spark抽象的基石,整个Spark的编程都是基于对RDD的操作完成的。RDD(弹性分布式数据集,Resilient Distributed Datasets),其特性是只读的、可分区、容错的的数据集合;所谓弹性,指内存不够时,可以与磁盘进行交换(Spark是基于内存的),上述是Spark快的一个原因。Spark快的另...
分类:
其他好文 时间:
2015-08-26 18:00:53
阅读次数:
368
安装Spark后进的第一个网址,看你是否安装成功,查看sprak中worker的状态
http://sparkmaster:8080/
查看spark-shell状态
http://sparkmaster:4040/stages/
查看dfs(datanode)的状态
http://sparkmaster:50070
查看nodes的状态
...
分类:
Web程序 时间:
2015-08-07 19:46:45
阅读次数:
105
一、进入IDE界面cd ~/Downloads/idea/binidea.sh二、建立scala项目Step 1:导入Spark-hadoop对应的包,次选择“File”–> “Project Structure” –> “Libraries”,选择“+”,将spark-hadoop 对应的包导入:...
分类:
系统相关 时间:
2014-10-29 23:29:50
阅读次数:
335