码迷,mamicode.com
首页 > 编程语言 > 详细

Spark学习笔记-如何运行wordcount(使用jar包)

时间:2014-11-09 23:29:11      阅读:231      评论:0      收藏:0      [点我收藏+]

标签:style   blog   color   ar   使用   sp   for   文件   div   

IDE:eclipse

Spark:spark-1.1.0-bin-hadoop2.4

scala:2.10.4

创建scala工程,编写wordcount程序如下

package com.luogankun.spark.base

import org.apache.spark.SparkConf
import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._

/**
 * 统计字符出现次数
 */
object WorkCount {
  def main(args: Array[String]) {
  if (args.length < 1) {
    System.err.println("Usage: <file>")
    System.exit(1)
  }
  val conf = new SparkConf()
  val sc = new SparkContext(conf)
  //SparkContext 是把代码提交到集群或者本地的通道,我们编写 Spark代码,无论是要运行本地还是集群都必须有 SparkContext 的实例。
  val line = sc.textFile(args(0))
  //把读取的内容保存给line变量,其实line是一个MappedRDD,Spark的代码,都是基于RDD操作的;
  line.flatMap(_.split("\t")).map((_, 1)).reduceByKey(_+_).collect.foreach(println)
  
  sc.stop
  }
}

右击工程->export,生成jar包 名称spark.jar,路径/usr/local/myjar/spark.jar

 

启动spark集群,自己写一个hadoop.txt,上传hadoop.txt到集群的/user/hadoop/文件夹之下

 

写一个脚本,用来执行这个程序

存放路径:/usr/local/myjar/WordCount.sh

#!/bin/bash

cd $SPARK_HOME/bin
spark-submit --master spark://master:7077 --class com.luogankun.spark.base.WorkCount --name wordcount --executor-memory 400M --driver-memory 512M /usr/local/myjar/spark.jar hdfs://master:9000/user/hadoop/hadoop.txt


执行脚本

进入脚本所在路径:/usr/local/myjar,执行脚本:./WordCount.sh

 

一段时间后可见结果。

Spark学习笔记-如何运行wordcount(使用jar包)

标签:style   blog   color   ar   使用   sp   for   文件   div   

原文地址:http://www.cnblogs.com/gnivor/p/4086029.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!