Scala初始化单机Spark

时间：2016-05-25 00:32:26 阅读：408 评论：0 收藏：0 [点我收藏+]

标签：

程序的结构如下：

技术分享

src：代码

lib：存放spark的jar包

work：

README.md：输入文件

counts ：输出文件路径

_SUCCESS: 程序执行成功的标志文件（空白文件）

part-00000：结果文件

InitSpark.scala代码

package initialSpark

import org.apache.spark.SparkConf
import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._
import org.apache.spark.rdd.RDD.rddToPairRDDFunctions

object InitSpark {

  def main(args: Array[String]) {
    //创建Spark Context
    val conf = new SparkConf()
      .setMaster("local") //单机模式
      .setAppName("My App") //应用名
    val sc = new SparkContext(conf)
    //读取输入文件
    val input = sc.textFile("./work/README.md")
    //用空格分隔输入文件，切分成一个个单词
    val words = input.flatMap { line => line.split(" ") }
    //将单词转化成键值对并计数
    val counts = words.map(word => (word, 1)) //转化成键值对
                      .reduceByKey((x, y) => x + y) //统计各个单词出现的次数
    //将处理结果出入到指定文件夹
    counts.saveAsTextFile("./work/counts")
  }
}

本文参照《Spark 快速大数据分析》

Scala初始化单机Spark

标签：

原文地址：http://www.cnblogs.com/grufield/p/5525463.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行