本文目的是根据前文的博文,打造一个Hadoop、Sprak的服务器闭环。也是经验归纳。 版本信息 CentOS: Linux localhost.localdomain 3.10.0-862.el7.x86_64 #1 SMP Fri Apr 20 16:44:24 UTC 2018 x86_64 ...
分类:
Web程序 时间:
2020-03-31 19:24:58
阅读次数:
204
(1)编写独立应用程序实现数据去重 package my.scala import org.apache.spark.{SparkConf, SparkContext} object case2 { def main(args: Array[String]): Unit = { val conf = ...
分类:
其他好文 时间:
2020-02-14 20:35:56
阅读次数:
246
实验 4 RDD 编程初级实践 一、实验目的 (1)熟悉 Spark 的 RDD 基本操作及键值对操作; (2)熟悉使用 RDD 编程解决实际具体问题的方法。 二、实验平台 操作系统:Ubuntu16.04 Spark 版本:2.1.0 三、实验内容和要求 1.spark-shell 交互式编程 下 ...
分类:
其他好文 时间:
2020-02-13 23:01:30
阅读次数:
143
文件的存取都是在hdfs内完成 (一)数据去重: 程序: 操作: 结果: (二)求平均值 程序: 操作: 结果: ...
分类:
其他好文 时间:
2020-02-12 16:34:22
阅读次数:
159
1.spark-shell交互式编程 (1) 该系总共有多少学生 scala> val lines = sc.textFile("file:///usr/local/spark/sparklab/Data01.txt") lines: org.apache.spark.rdd.RDD[String] ...
分类:
其他好文 时间:
2020-02-07 22:19:06
阅读次数:
182
今天主要学习了spark实验四的内容,实验四主要为RDD编程,本实验的重点为两个编程题 1.编写独立应用程序实现数据去重对于两个输入文件 A 和 B,编写 Spark 独立应用程序,对两个文件进行合并,并剔除其中重复的内容,得到一个新文件 C。下面是输入文件和输出文件的一个样例,供参考。输入文件 A ...
分类:
其他好文 时间:
2020-02-06 23:17:43
阅读次数:
168
今天完成了实验任务四-RDD编程初级实践,先在网上查了一下资料。 Spark大数据处理的核心是RDD,RDD的全称为弹性分布式数据集,对数据的操作主要涉及RDD的创建、转换以及行动等操作,在Spark系列(二)中主要介绍了RDD根据SparkContext的textFile创建RDD的方法,本小节将 ...
分类:
其他好文 时间:
2020-02-06 14:52:42
阅读次数:
65
今天完成了实验四的第二问和第三问 第二题 对于两个输入文件 A 和 B,编写 Spark 独立应用程序,对两个文件进行合并,并剔除其 中重复的内容,得到一个新文件 C。下面是输入文件和输出文件的一个样例,供参考。 输入文件 A 的样例如下: 20170101 x 20170102 y 2017010 ...
分类:
其他好文 时间:
2020-02-03 20:55:17
阅读次数:
126
一、实验目的 (1)熟悉 Spark 的 RDD 基本操作及键值对操作; (2)熟悉使用 RDD 编程解决实际具体问题的方法。 二、实验平台 操作系统:Ubuntu16.04 Spark 版本:2.1.0 三、实验内容和要求 1.spark-shell 交互式编程 请到本教程官网的“下载专区”的“数 ...
分类:
其他好文 时间:
2020-01-25 15:37:40
阅读次数:
356
接下来要写4篇的进度报告,准备把RDD编程和SparkSQL放在这几天一起弄掉(没回老家的大年三十稍微有些无聊)。 这一篇我想先笼统一下各方面的知识,省的有不理解的地方。 首先是RDD。 作为一个分布式的数据构造,RDD对我来说方法是抽象的,而且一般来说面向我的都是函数式的编程操作,很难体会到RDD ...
分类:
其他好文 时间:
2020-01-24 20:10:05
阅读次数:
101