大数据之Spark单词统计

时间：2020-05-26 22:06:21 阅读：102 评论：0 收藏：0 [点我收藏+]

标签：mapreduce imp strong css 生成 spark hive 切分 art

题目三：使用Spark Core 统计文件中以spark开头的单词中，每个单词出现的次数（共计30分）

spark-core hadoop linux java spark-sql
storm html css vue spark
spring springboot struts
spark-hive
mapreduce hbase flume kafka
storm html css vue spark javascript
spring springboot struts
spark-hive php

1）创建spark项目，读取以上内容文件生成RDD（5分）
2）将文章内容进行切分成字符串（5分）
3）过滤出spark开头的字符串（5分）

4）对过滤出的字符串进行相应的运算处理（5分）

5）将处理结果进行累加（5分）

import org.apache.spark.{SparkConf, SparkContext}

object Test3 {
System.setProperty("hadoop.home.dir", "D:\\Studyingimportant\\hadoop-2.9.2");
def main(args: Array[String]): Unit = {
val conf = new SparkConf().setMaster("local[2]").setAppName("sort")
val sc = new SparkContext(conf)

sc.textFile("D:\\\\words.txt")
.flatMap(line => line.split(" "))
.filter(word => word.startsWith("spark"))
.map(word => (word,1))
.reduceByKey((x,y) => x+y)
.foreach(println)
}
}

大数据之Spark单词统计

标签：mapreduce imp strong css 生成 spark hive 切分 art

原文地址：https://www.cnblogs.com/whyuan/p/12968858.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行