码迷,mamicode.com
首页 > 其他好文 > 详细

Spark之命令

时间:2015-08-26 23:54:32      阅读:404      评论:0      收藏:0      [点我收藏+]

标签:

Spark之命令

1.spark运行模式有4种:

a.local 多有用测试,

b. standalone:spark 集群模式,使用spark自己的调度方式。

c. Yarn: 对MapreduceV1升级的经典版本,支持spark。

d.Mesos:类似Yarn的资源调度框架,提供了有效的、跨分布式应用或框架的资源隔离和共享,可以运行hadoop、spark等框架

 

2.spark local 模式(shell )

Spark local模式(shell运行)
    windows:
       执行spark-shell.cmd

    Linux:
       执行spark-shell

    
     参数指定:

    ? MASTER=local[4]  ADD_JARS=code.jar ./spark-shell

    ? MASTER=spark://host:port

    ? 指定executor内存:export SPARK_MEM=25g
3. spark standalone 模式
技术分享
Spark standalone加载数据(shell运行spark-shell)

     读取本地文件:
     var file = sc.textFile("/root/test.txt").collect

     加载远程hdfs文件:
     var files = sc.textFile("hdfs://192.168.2.2:8020/user/superman").collect
     (读取hdfs数据时使用的还是inputFormat)

       standalone WordCount
              sc.textFile("/root/test.txt").flatMap(_.split("\\t")).map(x=>(x,1))
.reduceByKey(_+_).collect
 
Spark standalone保存结果集数据

     保存数据到本地:
     result.saveAsTextFile("/root/tmp")   (tmp文件夹必须不存在)

     保存数据到远程hdfs文件:
     result.saveAsTextFile("hdfs://crxy165:8020/user/superman/tmp")
     (tmp文件夹必须不存在)

      设置输出结果集文件数量:
       result.repartition(1).saveAsTextFile

      任务提交
       spark-submit   (推荐)
       其它也可?,如sbt run, java -jar  等等

4.RDD,可恢复分布式数据集,弹性分布式数据集

Spark之命令

标签:

原文地址:http://www.cnblogs.com/chaoren399/p/4761746.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!