scala> val rdd1 = sc.parallelize(List(63,45,89,23,144,777,888))rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at parallelize at :15查看该... ...
分类:
其他好文 时间:
2019-12-15 01:05:06
阅读次数:
98
val rdd = sc.parallelize(List(1,2,3,4,5,6),第二参数)这里的第二参数 获取方式有两种:1.直接给定值,根据传入的值决定分区的数量2.根据运行环境获取分区数量(core) -->例如 本地运行 设置为local 此时设置分区值默认分区就是1个 val rdd ...
分类:
其他好文 时间:
2019-12-12 17:57:37
阅读次数:
190
val rdd= sc.parallelize(List(("tom",1),("jerry",3),("kitty",2),("tom",2))) //1.根据传入的参数进行分组 val rdd1:RDD[(String, Iterable[(String, Int)])] =rdd.groupB ...
分类:
其他好文 时间:
2019-12-10 19:45:36
阅读次数:
110
与map类似,区别是原RDD中的元素经map处理后只能生成一个元素,而原RDD中的元素经flatmap处理后可生成多个元素 val a = sc.parallelize(1 to 4, 2) val b = a.flatMap(x => 1 to x)//每个元素扩展 b.collect /* 结果... ...
分类:
其他好文 时间:
2019-08-11 13:37:57
阅读次数:
100
spark围绕弹性分布式数据集(RDD)的概念展开的,RDD是一个可以并行操作的容错集合。 创建RDD的方法: 1.并行化集合(并行化驱动程序中现有的集合) 调用SparkContext的parallelize收集方法 2.外部数据集操作(引用外部系统存储的数据集) RDD操作 1.Transfor ...
分类:
其他好文 时间:
2019-06-25 16:59:55
阅读次数:
95
RDD的动作算子 reduce(func) 通过func函数聚集RDD中的所有元素,这个功能必须是可交换且可并联的。(符合结合律和交换律),func输入为两个元素,返回为一个元素。 def add(x,y): return x+y sc.parallelize([1, 2, 3, 4, 5]).re ...
分类:
其他好文 时间:
2019-04-05 12:03:04
阅读次数:
344
创建RDD 方式一:从集合创建RDD ● makeRDD ● Parallelize 注意:makeRDD可以指定每个分区perferredLocations参数parallelize则没有。 方式二:读取外部存储创建RDD Spark与Hadoop完全兼容,所以对Hadoop所支持的文件类型或者数 ...
分类:
其他好文 时间:
2019-01-21 16:08:36
阅读次数:
162
users = ParallelCollectionRDD[62] at parallelize at :49 ParallelCollectionRDD[62] at parallelize at :49 relationships = ParallelCollectionRDD[63] at p ...
分类:
其他好文 时间:
2018-12-20 14:33:05
阅读次数:
210
Spark下生成2000w测试数据(每条记录150列) 使用spark生成大量数据过程中遇到问题,如果sc.parallelize(fukeData, 64);的记录数特别大比如500w,1000w时,会特别慢,而且会抛出内存溢出over head错误。解决方案,一次生成的数据量不高于100w,多次 ...
分类:
其他好文 时间:
2018-10-31 20:02:01
阅读次数:
394
spark 创建分区 val scores = Array(("Fred", 88), ("Fred", 95), ("Fred", 91), ("Wilma", 93), ("Wilma", 95), ("Wilma", 98)) val input = sc.parallelize(scores ...
分类:
其他好文 时间:
2018-09-29 13:02:21
阅读次数:
1741