码迷,mamicode.com
首页 >  
搜索关键字:rdd    ( 1327个结果
Spark core 总结(一)
Spark RDD五大特性 1、RDD由一组partition组成 2、每一个分区由一个task来处理 3、RDD之间有一些列依赖关系 4、分区类算子必须作用在kv格式得RDD上 5、spark为task执行提供了最佳计算位置,尽量将task发送到数据所在节点执行 spark 快的原因 1、spar ...
分类:其他好文   时间:2020-02-15 15:21:21    阅读次数:73
spark自定义分区器
1、spark中默认的分区器: Spark目前支持Hash分区和Range分区,用户也可以自定义分区,Hash分区为当前的默认分区,Spark中分区器直接决定了RDD中分区的个数、RDD中每条数据经过Shuffle过程属于哪个分区和Reduce的个数。 只有Key-Value类型的RDD才有分区器的 ...
分类:其他好文   时间:2020-02-14 22:47:17    阅读次数:75
RDD编程实践2-编写独立应用程序实现数据去重,实现求平均值问题
(1)编写独立应用程序实现数据去重 package my.scala import org.apache.spark.{SparkConf, SparkContext} object case2 { def main(args: Array[String]): Unit = { val conf = ...
分类:其他好文   时间:2020-02-14 20:35:56    阅读次数:246
spark中常用转换操作keys 、values和mapValues
1.keys 功能: 返回所有键值对的key 示例 val list = List("hadoop","spark","hive","spark") val rdd = sc.parallelize(list) val pairRdd = rdd.map(x => (x,1)) pairRdd.ke ...
分类:其他好文   时间:2020-02-14 18:33:43    阅读次数:110
寒假学习报告13
实验 4 RDD 编程初级实践 一、实验目的 (1)熟悉 Spark 的 RDD 基本操作及键值对操作; (2)熟悉使用 RDD 编程解决实际具体问题的方法。 二、实验平台 操作系统:Ubuntu16.04 Spark 版本:2.1.0 三、实验内容和要求 1.spark-shell 交互式编程 下 ...
分类:其他好文   时间:2020-02-13 23:01:30    阅读次数:143
RDD编程--数据去重、求平均值
文件的存取都是在hdfs内完成 (一)数据去重: 程序: 操作: 结果: (二)求平均值 程序: 操作: 结果: ...
分类:其他好文   时间:2020-02-12 16:34:22    阅读次数:159
任务中如何确定spark分区数、task数目、core个数、worker节点个数、excutor数量
1、任务中如何确定spark RDD分区数、task数目、core个数、worker节点个数、excutor数量 (1)hdfs 上的文件的存储形式是以 Block 的形式存储的,每个 File 文件都包含了很多块,一个Block默认是128M大小。当 spark 从 hdfs 上读取数据的时候,会 ...
分类:其他好文   时间:2020-02-12 16:16:22    阅读次数:199
Spark应用程序--词频统计--命令行分析学习
词频统计: textFile包含了多行文本内容: textFile.flatMap(line => line.split(” “))会遍历textFile中的每行文本内容,当遍历到其中一行文本内容时,会把文本内容赋值给变量line,并执行Lamda表达式line => line.split(” “) ...
分类:其他好文   时间:2020-02-11 09:32:45    阅读次数:65
RDD
弹性分布式数据集(RDD,Resilient Distributed Datasets),它具备像MapReduce等数据流模型的容错特性,并且允许开发人员在大型集群上执行基于内存的计算。现有的数据流系统对两种应用的处理并不高效:一是迭代式算法,这在图应用和机器学习领域很常见;二是交互式数据挖掘工具 ...
分类:其他好文   时间:2020-02-09 23:55:54    阅读次数:139
2020.2.9
一、大数据spark 跟着b站的尚硅谷大数据往后学习了7个知识点 视频号:av62992342 内容:学习了RDD的一些知识,包括保存读取和操作数据库 课程学习进度:54/126 二、《一线架构师实践指南》阅读 阅读了第八章 初步设计(主要讲述了鲁棒图) ...
分类:其他好文   时间:2020-02-08 22:00:13    阅读次数:67
1327条   上一页 1 ... 17 18 19 20 21 ... 133 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!