搜索关键字：parallelize，搜索到65个结果！码迷,mamicode.com！

初见spark-04(高级算子)

今天，这个是spark的高级算子的讲解的最后一个章节，今天我们来介绍几个简单的算子， countByKey val rdd1 = sc.parallelize(List(("a", 1), ("b", 2), ("b", 2), ("c", 2), ("c", 1)))rdd1.countByKey ...

分类：其他好文时间：2016-12-29 22:56:32 阅读次数：161

Spark 算子

0.parallelize 1.map 2.mapValues 3.flatMap 4.mapPartitions 5.mapPartitionsWithIndex 6.filter 7.reduce 8.reduceByKey 9.groupBy 10.groupByKey 11.partitio ...

分类：其他好文时间：2016-11-07 01:38:03 阅读次数：293

Spark 编程基础

1. 初始化Spark 2. 创建RDD的方法内存：Parallelize 或者 makeRDD 外部文件：textFile 3. 键值对下面两者等价： reduceByKey 和sortByKey、groupByKey 1）返回key 以及每个key的个数（key, cnt) 2）返回 ( ...

分类：其他好文时间：2016-09-13 11:39:22 阅读次数：147

Job 逻辑执行图

General logical plan 典型的 Job 逻辑执行图如上所示，经过下面四个步骤可以得到最终执行结果：从数据源（可以是本地 file，内存数据结构， HDFS，HBase 等）读取数据创建最初的 RDD。上一章例子中的 parallelize() 相当于 createRDD()。对 ...

分类：其他好文时间：2016-09-07 22:19:56 阅读次数：225

Spark RDD Transformation 简单用例（一）

map(func) 将原RDD中的每一个元素经过func函数映射为一个新的元素形成一个新的RDD。示例：其中sc.parallelize第二个参数标识RDD的分区数量 filter(func) def filter(f: T => Boolean): RDD[T] 原RDD中通过func函数结果 ...

分类：其他好文时间：2016-09-01 21:24:24 阅读次数：242

Spark-->PageRank [Scala]

算法的数学分析部分：可参考网络，或者Google PageRank 论文。此处不做讨论，或以后我彻底搞明白再论述。代码实现： val sc = new SparkContext(...) val links = sc.parallelize(Array(('A',Array('D')),('B',

分类：其他好文时间：2016-02-28 16:34:29 阅读次数：144

Spark IMF传奇行动第18课：RDD持久化、广播、累加器总结

昨晚听了王家林老师的Spark IMF传奇行动第18课：RDD持久化、广播、累加器，作业是unpersist试验，阅读累加器源码看内部工作机制：scala> val rdd = sc.parallelize(1 to 1000)rdd: org.apache.spark.rdd.RDD[Int] =...

分类：其他好文时间：2016-01-24 12:52:11 阅读次数：471

Linus：为何对象引用计数必须是原子的

Linus大神又在rant了！这次的吐槽对象是时下很火热的并行技术(parellism)，并直截了当地表示并行计算是浪费所有人时间(“The whole “let’s parallelize” thing is a huge waste of everybody’s time.”)。大致意思是说乱序...

分类：其他好文时间：2016-01-08 22:00:49 阅读次数：269

Spark Programming--Fundamental operation

sc.parallelize()：创建RDD，建议使用xrangegetNumPartitions()：获取分区数glom()：以分区为单位返回listcollect()：返回list（一般是返回driver program）例子：sc.textFile(path):读取文件，返回RDD官网函数：t...

分类：其他好文时间：2015-12-30 23:42:48 阅读次数：259

spark RDD transformation与action函数巩固 (未完)

1.创建RDDval lines = sc.parallelize(List("pandas","i like pandas"))2.加载本地文件到RDDval linesRDD = sc.textFile("yangsy.txt")3.过滤 filter 需要注意的是 filter并不会在原有RD...

分类：其他好文时间：2015-11-28 14:52:54 阅读次数：213

共65条上一页 1 ... 3 4 5 6 7 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)