搜索关键字：parallelize，搜索到65个结果！码迷,mamicode.com！

Spark RDD

scala> val rdd1 = sc.parallelize(List(63,45,89,23,144,777,888))rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at parallelize at :15查看该... ...

分类：其他好文时间：2019-12-15 01:05:06 阅读次数：98

TextFile分区问题

val rdd = sc.parallelize(List(1,2,3,4,5,6),第二参数)这里的第二参数获取方式有两种:1.直接给定值,根据传入的值决定分区的数量2.根据运行环境获取分区数量(core) -->例如本地运行设置为local 此时设置分区值默认分区就是1个 val rdd ...

分类：其他好文时间：2019-12-12 17:57:37 阅读次数：190

scala中分组的算子的用法

val rdd= sc.parallelize(List(("tom",1),("jerry",3),("kitty",2),("tom",2))) //1.根据传入的参数进行分组 val rdd1:RDD[(String, Iterable[(String, Int)])] =rdd.groupB ...

分类：其他好文时间：2019-12-10 19:45:36 阅读次数：110

Spark常用的算子总结（2）——flatMap

与map类似，区别是原RDD中的元素经map处理后只能生成一个元素，而原RDD中的元素经flatmap处理后可生成多个元素 val a = sc.parallelize(1 to 4, 2) val b = a.flatMap(x => 1 to x)//每个元素扩展 b.collect /* 结果... ...

分类：其他好文时间：2019-08-11 13:37:57 阅读次数：100

弹性分布式数据集（RDD）

spark围绕弹性分布式数据集（RDD）的概念展开的，RDD是一个可以并行操作的容错集合。创建RDD的方法： 1.并行化集合（并行化驱动程序中现有的集合）调用SparkContext的parallelize收集方法 2.外部数据集操作（引用外部系统存储的数据集） RDD操作 1.Transfor ...

分类：其他好文时间：2019-06-25 16:59:55 阅读次数：95

RDD动作算子(action)

RDD的动作算子 reduce(func) 通过func函数聚集RDD中的所有元素，这个功能必须是可交换且可并联的。（符合结合律和交换律），func输入为两个元素，返回为一个元素。 def add(x,y): return x+y sc.parallelize([1, 2, 3, 4, 5]).re ...

分类：其他好文时间：2019-04-05 12:03:04 阅读次数：344

Spark 编程模型(中)

创建RDD 方式一：从集合创建RDD ● makeRDD ● Parallelize 注意：makeRDD可以指定每个分区perferredLocations参数parallelize则没有。方式二：读取外部存储创建RDD Spark与Hadoop完全兼容，所以对Hadoop所支持的文件类型或者数 ...

分类：其他好文时间：2019-01-21 16:08:36 阅读次数：162

subgraph示例

users = ParallelCollectionRDD[62] at parallelize at :49 ParallelCollectionRDD[62] at parallelize at :49 relationships = ParallelCollectionRDD[63] at p ...

分类：其他好文时间：2018-12-20 14:33:05 阅读次数：210

Spark下生成测试数据，并在Spark环境下使用BulkProcessor将测试数据入库到ES6.4.2

Spark下生成2000w测试数据（每条记录150列）使用spark生成大量数据过程中遇到问题，如果sc.parallelize(fukeData, 64);的记录数特别大比如500w,1000w时，会特别慢，而且会抛出内存溢出over head错误。解决方案，一次生成的数据量不高于100w,多次 ...

分类：其他好文时间：2018-10-31 20:02:01 阅读次数：394

spark 中如何查看单个RDD分区的内容（创建分区，查看分区数）

spark 创建分区 val scores = Array(("Fred", 88), ("Fred", 95), ("Fred", 91), ("Wilma", 93), ("Wilma", 95), ("Wilma", 98)) val input = sc.parallelize(scores ...

分类：其他好文时间：2018-09-29 13:02:21 阅读次数：1741

共65条上一页 1 2 3 4 5 ... 7 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)