寒假学习报告13

时间：2020-02-13 23:01:30 阅读：143 评论：0 收藏：0 [点我收藏+]

标签：基本操作 txt long pac algorithm hpa split 键值对 cal

实验 4 RDD 编程初级实践

一、实验目的
（1）熟悉 Spark 的 RDD 基本操作及键值对操作；（2）熟悉使用 RDD 编程解决实际具体问题的方法。
二、实验平台
操作系统：Ubuntu16.04 Spark 版本：2.1.0
三、实验内容和要求
1．spark-shell 交互式编程
下载 chapter5-data1.txt，该数据集包含了某大学计算机系的成绩，数据格式如下所示：

技术图片

请根据给定的实验数据，在 spark-shell 中通过编程来计算以下内容：

创建目录，将chapter5-data1.txt放在指定目录

技术图片

（1）该系总共有多少学生；

技术图片

scala> val lines = sc.textFile("file:///usr/local/sparkdata01/chapter5-data1.txt")
scala> val par = lines.map(row=>row.split(",")(0))
scala> val distinct_par = par.distinct()
scala> distinct_par.count

（2）该系共开设来多少门课程；

技术图片

scala> val lines = sc.textFile("file:///usr/local/sparkdata01/chapter5-data1.txt")
scala> val par = lines.map(row=>row.split(",")(1))
scala> val distinct_par = par.distinct()
scala> distinct_par.count

（3）Tom 同学的总成绩平均分是多少；

技术图片

val lines = sc.textFile("file:///usr/local/sparkdata01/chapter5-data1.txt")
val pare = lines.filter(row=>row.split(",")(0)=="Tom")
pare.map(row=>(row.split(",")(0),row.split(",")(2).toInt)).mapValues(x=>(x,1)).reduceByKey((x,y ) => (x._1+y._1,x._2 + y._2)).mapValues(x => (x._1 / x._2)).collect()

（4）求每名同学的选修的课程门数；

技术图片

val lines = sc.textFile("file:///usr/local/sparkdata01/chapter5-data1.txt")
val pare = lines.map(row=>(row.split(",")(0),row.split(",")(1)))
pare.mapValues(x => (x,1)).reduceByKey((x,y) => (" ",x._2 + y._2)).mapValues(x => x._2).foreach(print)

（5）该系 DataBase 课程共有多少人选修；

技术图片

val lines = sc.textFile("file:///usr/local/sparkdata01/chapter5-data1.txt")
val pare = lines.filter(row=>row.split(",")(1)=="DataBase")
pare.count

（6）各门课程的平均分是多少；

技术图片

val lines = sc.textFile("file:///usr/local/sparkdata01/chapter5-data1.txt")
val pare = lines.map(row=>(row.split(",")(1),row.split(",")(2).toInt))
pare.mapValues(x=>(x,1)).reduceByKey((x,y) => (x._1+y._1,x._2 + y._2)).mapValues(x => (x._1/ x._2)).collect()

（7）使用累加器计算共有多少人选了 DataBase 这门课。

技术图片

val lines = sc.textFile("file:///usr/local/sparkdata01/chapter5-data1.txt")
val pare = lines.filter(row=>row.split(",")(1)=="DataBase").map(row=>(row.split(",")(1),1))
val accum = sc.longAccumulator("My Accumulator")
pare.values.foreach(x => accum.add(x))
accum.value

2.编写独立应用程序实现数据去重
对于两个输入文件 A 和 B，编写 Spark 独立应用程序，对两个文件进行合并，并剔除其中重复的内容，得到一个新文件 C。下面是输入文件和输出文件的一个样例，供参考。输入文件 A 的样例如下：

20170101 x

20170102 y

20170103 x

20170104 y

20170105 z

20170106 z

输入文件 B 的样例如下：

20170101 y

20170102 y

20170103 x

20170104 z

20170105 y

根据输入的文件 A 和 B 合并得到的输出文件 C 的样例如下：

20170101 x

20170101 y

20170102 y

20170103 x

20170104 y

20170104 z

20170105 y

20170105 z

20170106 z

技术图片

import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._
import org.apache.spark.SparkConf
import org.apache.spark.HashPartitioner
object RemDup{
    def main(args: Array[String]) {
        val conf = new SparkConf().setAppName("RemDup")
        val sc = new SparkContext(conf)
        val dataFile ="file:///usr/local/sparkdata01/A.txt,file:///usr/local/sparkdata01/B.txt"
        val data = sc.textFile(dataFile,2)
        val res = data.filter(_.trim().length>0).map(line=>(line.trim,"")).partitionBy(new HashPartitioner(1)).groupByKey().sortByKey().keys
        res.saveAsTextFile("result")

}
}

3.编写独立应用程序实现求平均值问题
每个输入文件表示班级学生某个学科的成绩，每行内容由两个字段组成，第一个是学生名字，第二个是学生的成绩；编写 Spark 独立应用程序求出所有学生的平均成绩，并输出到一个新文件中。下面是输入文件和输出文件的一个样例，供参考。

Algorithm 成绩：

小明 92

小红 87

小新 82

小丽 90

Database 成绩：

小明 95

小红 81

小新 89

小丽 85

Python 成绩：

小明 82

小红 83

小新 94

小丽 91

平均成绩如下：

(小红,83.67)

(小新,88.33)

(小明,89.67)

(小丽,88.67)

import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._
import org.apache.spark.SparkConf
import org.apache.spark.HashPartitioner
object avgscore {
    def main(args: Array[String]) {
    val conf = new SparkConf().setAppName("AvgScore")
    val sc = new SparkContext(conf)
    val dataFile = "file:///usr/local/sparkdata01/1.txt,file:///usr/local/spark/sparklab/lab043/2.txt,file:///usr/local/sparkdata01/3.txt"
    val data = sc.textFile(dataFile,3)
    var score = data.map(line=>(line.split(" ")(0),line.split(" ")(1).toInt)).mapValues(x=>(x,1)).reduceByKey((x,y)=>(x._1+y._1,x._2+y._2)).mapValues(x=>(x._1/x._2)).collect().foreach(println)
    //res.saveAsTextFile("result")
}
}

寒假学习报告13

标签：基本操作 txt long pac algorithm hpa split 键值对 cal

原文地址：https://www.cnblogs.com/baimafeima/p/12304164.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行