码迷,mamicode.com
首页 >  
搜索关键字:parallelize    ( 65个结果
Spark RDD
scala> val rdd1 = sc.parallelize(List(63,45,89,23,144,777,888))rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at parallelize at :15查看该... ...
分类:其他好文   时间:2019-12-15 01:05:06    阅读次数:98
TextFile分区问题
val rdd = sc.parallelize(List(1,2,3,4,5,6),第二参数)这里的第二参数 获取方式有两种:1.直接给定值,根据传入的值决定分区的数量2.根据运行环境获取分区数量(core) -->例如 本地运行 设置为local 此时设置分区值默认分区就是1个 val rdd ...
分类:其他好文   时间:2019-12-12 17:57:37    阅读次数:190
scala中分组的算子的用法
val rdd= sc.parallelize(List(("tom",1),("jerry",3),("kitty",2),("tom",2))) //1.根据传入的参数进行分组 val rdd1:RDD[(String, Iterable[(String, Int)])] =rdd.groupB ...
分类:其他好文   时间:2019-12-10 19:45:36    阅读次数:110
Spark常用的算子总结(2)——flatMap
与map类似,区别是原RDD中的元素经map处理后只能生成一个元素,而原RDD中的元素经flatmap处理后可生成多个元素 val a = sc.parallelize(1 to 4, 2) val b = a.flatMap(x => 1 to x)//每个元素扩展 b.collect /* 结果... ...
分类:其他好文   时间:2019-08-11 13:37:57    阅读次数:100
弹性分布式数据集(RDD)
spark围绕弹性分布式数据集(RDD)的概念展开的,RDD是一个可以并行操作的容错集合。 创建RDD的方法: 1.并行化集合(并行化驱动程序中现有的集合) 调用SparkContext的parallelize收集方法 2.外部数据集操作(引用外部系统存储的数据集) RDD操作 1.Transfor ...
分类:其他好文   时间:2019-06-25 16:59:55    阅读次数:95
RDD动作算子(action)
RDD的动作算子 reduce(func) 通过func函数聚集RDD中的所有元素,这个功能必须是可交换且可并联的。(符合结合律和交换律),func输入为两个元素,返回为一个元素。 def add(x,y): return x+y sc.parallelize([1, 2, 3, 4, 5]).re ...
分类:其他好文   时间:2019-04-05 12:03:04    阅读次数:344
Spark 编程模型(中)
创建RDD 方式一:从集合创建RDD ● makeRDD ● Parallelize 注意:makeRDD可以指定每个分区perferredLocations参数parallelize则没有。 方式二:读取外部存储创建RDD Spark与Hadoop完全兼容,所以对Hadoop所支持的文件类型或者数 ...
分类:其他好文   时间:2019-01-21 16:08:36    阅读次数:162
subgraph示例
users = ParallelCollectionRDD[62] at parallelize at :49 ParallelCollectionRDD[62] at parallelize at :49 relationships = ParallelCollectionRDD[63] at p ...
分类:其他好文   时间:2018-12-20 14:33:05    阅读次数:210
Spark下生成测试数据,并在Spark环境下使用BulkProcessor将测试数据入库到ES6.4.2
Spark下生成2000w测试数据(每条记录150列) 使用spark生成大量数据过程中遇到问题,如果sc.parallelize(fukeData, 64);的记录数特别大比如500w,1000w时,会特别慢,而且会抛出内存溢出over head错误。解决方案,一次生成的数据量不高于100w,多次 ...
分类:其他好文   时间:2018-10-31 20:02:01    阅读次数:394
spark 中如何查看单个RDD分区的内容(创建分区,查看分区数)
spark 创建分区 val scores = Array(("Fred", 88), ("Fred", 95), ("Fred", 91), ("Wilma", 93), ("Wilma", 95), ("Wilma", 98)) val input = sc.parallelize(scores ...
分类:其他好文   时间:2018-09-29 13:02:21    阅读次数:1741
65条   上一页 1 2 3 4 5 ... 7 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!