首页 > Web开发 > 详细

本地开发spark代码上传spark集群服务并运行（基于spark官网文档）

时间：2015-01-08 20:15:02 阅读：192 评论：0 收藏：0 [点我收藏+]

标签：scala idea hdfs hadoop spark

打开IDEA 在src下的main下的scala下右击创建一个scala类名字为SimpleApp ,内容如下

import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._
import org.apache.spark.SparkConf
object SimpleApp {
  def main(args: Array[String]) {
    val logFile = "/home/spark/opt/spark-1.2.0-bin-hadoop2.4/README.md" // Should be some file on your system
    val conf = new SparkConf().setAppName("Simple Application")
    val sc = new SparkContext(conf)
    val logData = sc.textFile(logFile, 2).cache()
    val numAs = logData.filter(line => line.contains("a")).count()
    val numBs = logData.filter(line => line.contains("b")).count()
    println("Lines with a: %s, Lines with b: %s".format(numAs, numBs))
  }
}

打包文件：

File-->>ProjectStructure -->点击Artificats-->>点击绿色加号 --> 点击JAR-->>选择 From module with dependices

技术分享

点击Output Layout 看看是否没有第三方jar包，因为你使用spark集群环境，所以你不需要第三方jar包

技术分享

重新build：

Build-->>Build Artifcat ..--->>build 或者rebuild

技术分享

技术分享

技术分享

执行后就会在D:\mygit\study-scala\out\artifacts\study_scala_jar目录下看到study-scala.jar

技术分享

上传到spark集群服务器的 spark_home下的myApp下

技术分享

上传/home/spark/opt/spark-1.2.0-bin-hadoop2.4/README.md到HDFS中

技术分享

提交spark任务：

./bin/spark-submit --class "SimpleApp" --master local[4] myApp/study-scala.jar

技术分享

技术分享

执行结果为a:60,b:29

本地开发spark代码上传spark集群服务并运行（基于spark官网文档）

标签：scala idea hdfs hadoop spark

原文地址：http://blog.csdn.net/stark_summer/article/details/42528081

踩

(0)

赞

(0)

举报

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

更多

友情链接

兰亭集智国之画百度统计站长统计阿里云 chrome插件新版天听网

关于我们 - 联系我们 - 留言反馈

© 2014 mamicode.com 版权所有联系我们:gaon5@hotmail.com

迷上了代码！