码迷,mamicode.com
首页 > 其他好文 > 详细

【2020/1/18】寒假自学——学习进度报告4

时间:2020-01-22 18:22:11      阅读:53      评论:0      收藏:0      [点我收藏+]

标签:证明   虚拟   alt   图片   结果   实例   不同   语句   方法   

  上次是安装完成了,这次就来试试Spark的基本操作。


  首先是运行Spark自带的实例SparkPi。

技术图片

 

   在配置好环境变量的时候可以直接运行,但可以看到虽然运行成功但信息太过复杂,所以检索之后——

  技术图片

 

   虽然计算结果有所偏差,但多少能证明Spark的计算能力可以使用。


  第二个运行的就是和计算能力没太大关联的WordCount。

  技术图片

 

  创造好需要的文件(文件内存入了空格隔离的几个单词)。

  启动pyspark,其以交互的方式使用Python编写Spark程序。

技术图片

 

   可以看到启动界面如此。

  但也有会遇到——

技术图片

 

   的情况,这就是需要把环境配置到Spark自带的python中。下面记录解决方法——

添加python相关环境变量


文件末尾添加如下语句

export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.10.7-src.zip:$PYTHONPATH
export PYSPARK_PYTHON=python3
 注意:py4j-0.10.7-src.zip要到$SPARK_HOME/python/lib目录查看是否是这个名称。不同版本的py4j的名称会有差别

 

$ nano ~/.bashrc

 

保存后,让环境变量生效

$ source ~/.bashrc

————————————————
原文链接:https://blog.csdn.net/qq_42881421/article/details/88069211

   如此就可以运行,虽然第一行还是显示python未找到命令。

  顺带一提,此时可以在虚拟机和实机里面访问网址ip:4040。

技术图片

 

   词频统计运行结果——

技术图片

 

   


 

   第三个准备尝试集群化的操作。

  首先确认启动集群(但因为没有slave机,所以还是伪集群,但操作无关紧要)。

技术图片

 

   确认Master、Worker的启动。

  集群操作一:运行应用程序JAR包

  向独立集群管理器提交应用,需要把spark://ip:7077(7077似乎是默认端口)作为主节点参数递给spark-submit。(值得一提的是如果是想向yarn提交应用可以修改参数)

技术图片

 

   同样很杂,检索后——

技术图片

 

   可以看到精度还提升不少,可喜可贺。

  

【2020/1/18】寒假自学——学习进度报告4

标签:证明   虚拟   alt   图片   结果   实例   不同   语句   方法   

原文地址:https://www.cnblogs.com/limitCM/p/12228920.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!