码迷,mamicode.com
首页 > 其他好文 > 详细

大三上寒假15天--第1天

时间:2020-02-01 23:24:39      阅读:75      评论:0      收藏:0      [点我收藏+]

标签:local   fir   文件夹   quit   grep   apach   img   内容   contain   

学习于林子雨《大数据技术原理与应用》教材配套大数据软件安装和编程实践指南

一. 安装spark

第一步,spark下载(http://spark.apache.org/downloads.html)

技术图片

 

 

 第二步,spark压缩包解压

        sudo tar -zxf ~/下载/spark-1.6.2-bin-without-hadoop.tgz -C /usr/local/

第三步,解压后文件夹改名为spark

  1. cd /usr/local
  2. sudo mv ./spark-1.6.2-bin-without-hadoop/ ./spark

第四步,赋予权限

        sudo chown -R hadoop:hadoop ./spark

第五步,安装后,还需要修改Spark的配置文件spark-env.sh

  1. cd /usr/local/spark
  2. cp ./conf/spark-env.sh.template ./conf/spark-env.sh
  3. vim ./conf/spark-env.sh
  4. 按i进入编辑模式,第一行插入export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath),如图:技术图片

第六步,测试

  1. cd /usr/local/spark
  2. bin/run-example SparkPi
  3. 结果应为,如图:技术图片,还有很多信息,这里只截了这么多,但可使用命令bin/run-example SparkPi 2>&1 | grep "Pi is",进行过滤,得到结果如图:技术图片

            就算安装成功了

 二.使用 Spark Shell 编写代码

第一步,启动spark shell

bin/spark-shell

成功后如图:技术图片

 

 

第二步,加载text文件

val textFile = sc.textFile("file:///usr/local/spark/README.md")

 如图:技术图片

 

 第三步,简单RDD操作

  1. textFile.first()//获取RDD文件textFile的第一行内容技术图片
  2. textFile.count()//获取RDD文件textFile所有项的计数技术图片

     

     

  3. val lineWithSpark = textFile.filter(line => line.contains("Spark"))//抽取含有“Spark”的行,返回一个新的RDD技术图片

     

     

  4. lineWithSpark.count()//统计新的RDD的行数技术图片

     

     

  5. textFile.map(line => line.split(" ").size).reduce((a, b) => if (a > b) a else b)//找出文本中每行的最多单词数(组合操作)技术图片

     

     

第四步,退出Spark Shell

:quit

 

大三上寒假15天--第1天

标签:local   fir   文件夹   quit   grep   apach   img   内容   contain   

原文地址:https://www.cnblogs.com/my---world/p/12250521.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!