码迷,mamicode.com
首页 > 其他好文 > 详细

Spark - 经典案例

时间:2017-04-06 20:45:54      阅读:316      评论:0      收藏:0      [点我收藏+]

标签:apr   测试的   master   ram   top   string   arp   ref   main   

初识 Spark 大数据处理,目前还只是小白阶段,初步搭建起运行环境,慢慢学习之。

本文熟悉下 Spark 数据处理的几个经典案例。

Word Count

import org.apache.spark.SparkConf
import org.apache.spark.SparkContext

object WordCount {
    def main(args: Array[String]) {
        if (args.length < 1) {
          System.err.println("Usage: <file>")
          System.exit(1)
        }

        // 创建 SparkConf
        val conf = new SparkConf()
        conf.setAppName("WordCount")
            .setMaster("local[2]")

        // 创建 SparkContext
        val sc = new SparkContext(conf)

        // 数据处理
        val line = sc.textFile(args(0))
        line.flatMap(_.split("\\s+"))
            .map((_, 1))
            .reduceByKey(_+_)
            .collect.foreach(println)

        // 关闭 SparkContext
        sc.stop
    }
}

注意其中的几个问题:

  • 正则表达式 "\\s+" 匹配任意空白字符
  • SparkConf Name 和 Master Level 必须设置,本地调试应 local[i],i>1
  • args(0) 表示待测试的文件,eg,"sqh.txt"
  • 无论本地测试还是集群测试必须有 SparkContext 的实例

 

参考

Spark - 经典案例

标签:apr   测试的   master   ram   top   string   arp   ref   main   

原文地址:http://www.cnblogs.com/wjcx-sqh/p/6675293.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!