码迷,mamicode.com
首页 >  
搜索关键字:parallelize    ( 65个结果
Spark RDD编程
1.准备文本文件,从文件创建RDD lines=sc.textFile(),筛选出含某个单词的行 lines.filter(),lambda 参数:条件表达式 2.生成单词的列表,从列表创建RDD words=sc.parallelize(),筛选出长度大于2 的单词 words.filter() ...
分类:其他好文   时间:2021-03-29 12:44:51    阅读次数:0
02 Spark RDD编程
1.准备文本文件,从文件创建RDD lines=sc.textFile(),筛选出含某个单词的行 lines.filter(),lambda 参数:条件表达式 2.生成单词的列表,从列表创建RDD words=sc.parallelize(),筛选出长度大于2 的单词 words.filter() ...
分类:其他好文   时间:2021-03-29 12:30:29    阅读次数:0
03 Spark RDD编程基础
1. 准备文本文件从文件创建RDD lines=sc.textFile()筛选出含某个单词的行 lines.filter()lambda 参数:条件表达式 2. 生成单词的列表从列表创建RDD words=sc.parallelize()筛选出长度大于2 的单词 words.filter() ...
分类:其他好文   时间:2021-03-29 12:04:28    阅读次数:0
Spark 取前几行,先sort再limit
scala> val df = sc.parallelize(Seq( | (0,"cat26",30.9), | (1,"cat67",28.5), | (2,"cat56",39.6), | (3,"cat8",35.6))).toDF("Hour", "Category", "Value") ...
分类:其他好文   时间:2021-01-02 11:32:57    阅读次数:0
Spark 创建一个简单的DataFrame示例
scala> val df = sc.parallelize(Seq( | (0,"cat26",30.9), | (1,"cat67",28.5), | (2,"cat56",39.6), | (3,"cat8",35.6))).toDF("Hour", "Category", "Value") ...
分类:其他好文   时间:2021-01-02 11:32:37    阅读次数:0
Spark读取Hbase中的数据
大家可能都知道很熟悉Spark的两种常见的数据读取方式(存放到RDD中):(1)、调用parallelize函数直接从集合中获取数据,并存入RDD中;Java版本如下: JavaRDD<Integer> myRDD = sc.parallelize(Arrays.asList(1,2,3)); Sc ...
分类:其他好文   时间:2020-06-04 10:38:09    阅读次数:76
spark中常用转换操作keys 、values和mapValues
1.keys 功能: 返回所有键值对的key 示例 val list = List("hadoop","spark","hive","spark") val rdd = sc.parallelize(list) val pairRdd = rdd.map(x => (x,1)) pairRdd.ke ...
分类:其他好文   时间:2020-02-14 18:33:43    阅读次数:110
RDD转化操作记录(持续更新)
1、map(function) map是对RDD中的每个元素都执行一个指定的函数来产生一个新的RDD。任何原RDD中的元素在新RDD中都有且只有一个元素与之对应。 val a = sc.parallelize(1 to 9, 3) val b = a.map(x => x*2)//x => x*2是 ...
分类:其他好文   时间:2020-01-27 00:15:27    阅读次数:101
6.Pair RDD操作
1.1 键值对RDD操作 Mapreduce框架是把数据转为key-value,再聚合为key-values的过程。 在Spark里key-value RDD(pair RDD)同样是最常用的,在每个应用中基本都会用到。 pair RDD如何创建?不是通过sc.parallelize 创建 通常应用 ...
分类:其他好文   时间:2020-01-17 13:36:54    阅读次数:96
大数据-spark理论(2)算子,shuffle优化
导读目录 第一节:代码层面 1:RDD创建 2:算子 3:数据持久化算子 4:广播变量 5:累加器 6:开发流程 第二节:Shuffle优化层面 1:Shuffle 2:调优 第一节:代码层面 (1)RDD创建: Java: sc.textfile sc.parallelize() sc.paral ...
分类:其他好文   时间:2020-01-09 20:41:14    阅读次数:78
65条   上一页 1 2 3 4 ... 7 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!