搜索关键字：parallelize，搜索到65个结果！码迷,mamicode.com！

Spark RDD编程

1.准备文本文件，从文件创建RDD lines=sc.textFile()，筛选出含某个单词的行 lines.filter()，lambda 参数：条件表达式 2.生成单词的列表，从列表创建RDD words=sc.parallelize()，筛选出长度大于2 的单词 words.filter() ...

分类：其他好文时间：2021-03-29 12:44:51 阅读次数：0

02 Spark RDD编程

1.准备文本文件,从文件创建RDD lines=sc.textFile(),筛选出含某个单词的行 lines.filter(),lambda 参数：条件表达式 2.生成单词的列表,从列表创建RDD words=sc.parallelize(),筛选出长度大于2 的单词 words.filter() ...

分类：其他好文时间：2021-03-29 12:30:29 阅读次数：0

03 Spark RDD编程基础

1. 准备文本文件从文件创建RDD lines=sc.textFile()筛选出含某个单词的行 lines.filter()lambda 参数：条件表达式 2. 生成单词的列表从列表创建RDD words=sc.parallelize()筛选出长度大于2 的单词 words.filter() ...

分类：其他好文时间：2021-03-29 12:04:28 阅读次数：0

Spark 取前几行,先sort再limit

scala> val df = sc.parallelize(Seq( | (0,"cat26",30.9), | (1,"cat67",28.5), | (2,"cat56",39.6), | (3,"cat8",35.6))).toDF("Hour", "Category", "Value") ...

分类：其他好文时间：2021-01-02 11:32:57 阅读次数：0

Spark 创建一个简单的DataFrame示例

scala> val df = sc.parallelize(Seq( | (0,"cat26",30.9), | (1,"cat67",28.5), | (2,"cat56",39.6), | (3,"cat8",35.6))).toDF("Hour", "Category", "Value") ...

分类：其他好文时间：2021-01-02 11:32:37 阅读次数：0

Spark读取Hbase中的数据

大家可能都知道很熟悉Spark的两种常见的数据读取方式（存放到RDD中）：（1）、调用parallelize函数直接从集合中获取数据，并存入RDD中；Java版本如下： JavaRDD<Integer> myRDD = sc.parallelize(Arrays.asList(1,2,3)); Sc ...

分类：其他好文时间：2020-06-04 10:38:09 阅读次数：76

spark中常用转换操作keys 、values和mapValues

1.keys 功能：返回所有键值对的key 示例 val list = List("hadoop","spark","hive","spark") val rdd = sc.parallelize(list) val pairRdd = rdd.map(x => (x,1)) pairRdd.ke ...

分类：其他好文时间：2020-02-14 18:33:43 阅读次数：110

RDD转化操作记录（持续更新）

1、map（function） map是对RDD中的每个元素都执行一个指定的函数来产生一个新的RDD。任何原RDD中的元素在新RDD中都有且只有一个元素与之对应。 val a = sc.parallelize(1 to 9, 3) val b = a.map(x => x*2)//x => x*2是 ...

分类：其他好文时间：2020-01-27 00:15:27 阅读次数：101

6.Pair RDD操作

1.1 键值对RDD操作 Mapreduce框架是把数据转为key-value，再聚合为key-values的过程。在Spark里key-value RDD（pair RDD）同样是最常用的，在每个应用中基本都会用到。 pair RDD如何创建？不是通过sc.parallelize 创建通常应用 ...

分类：其他好文时间：2020-01-17 13:36:54 阅读次数：96

大数据-spark理论(2)算子，shuffle优化

导读目录第一节：代码层面 1：RDD创建 2：算子 3：数据持久化算子 4：广播变量 5：累加器 6：开发流程第二节：Shuffle优化层面 1：Shuffle 2：调优第一节：代码层面（1）RDD创建： Java: sc.textfile sc.parallelize() sc.paral ...

分类：其他好文时间：2020-01-09 20:41:14 阅读次数：78

共65条上一页 1 2 3 4 ... 7 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)