在CDH中安装Spark2

时间：2020-05-15 13:51:05 阅读：77 评论：0 收藏：0 [点我收藏+]

标签：cli chm his gateway ons lan odi from tor

第一步，需要在CDH上安装Spark 2，由于我的CDH是5.15.x，只能通过CDS的方式安装。官方指导在https://docs.cloudera.com/documentation/spark2/latest/topics/spark2.html。

总结下，需要手动下载cds文件上传到CM服务器并修改owner，然后重启系统的cmservice，之后可能还需要登录到CM管理端，从页面重启CM服务，这两者的关系我还不是很清楚囧

其次，配置下remote parcel repo，加上spark2的地址，然后如果页面显示需要重启就重启，重启之后到cluster->parcels页面check for new parcels应该就能看到spark2的选项，download之。

如果CM无法访问外网，方法1，配置CM的proxy，使用http代理；方法2，下载spark2的parcel文件和sha文件，以及！manifest.json，然后上传到CM的local parcel repo目录，重新check for new parcels，应该就OK了。

如果要使用structured streaming，spark2当然是选择最新版，因为foreach这个功能的python版只有2.4才支持。我选择的是最新的2.4.0.cloudera2-1.cdh5.13.3.p0.1041012。

第二步，CM中Add service，添加spark2，添加一个spark history节点，gateway节点自行选择，把所有spark可能运行的节点都选上好了。如果要让spark默认就能访问hive表，需要把hive和spark的gateway角色赋予同一台机器。
第三步，验证，找一台gateway，运行pyspark2（scala或java自行选择），如果出现spark 2.4,0的字样，则安装成功。

问题记录：

1，虽然我在提交spark作业时制定了spark-kafka的版本，

--packages org.apache.spark:spark-sql-kafka-0-10_2.11:2.4.0

还是会报错（类似）：

java.lang.NoSuchMethodError: org.apache.kafka.clients.consumer.KafkaConsumer.subscribe(Ljava/util/Collection;)V
at org.apache.spark.sql.kafka010.SubscribeStrategy.createConsumer(ConsumerStrategy.scala:63)

解决方案（原因未深究，我怀疑是CDH原来装了Spark 1，而这次我并没有卸载的缘故，CDH允许两个版本并存）：

export SPARK_KAFKA_VERSION=0.10

2，中文处理的问题，虽然在python中是古老的问题了，spark中一样会遇到，大概长下面这样：

UnicodeEncodeError: ‘ascii‘ codec can‘t encode character ‘\u2013‘ in position 9741: ordinal not in range(128)

解决方案：

设置python文件编码，针对python 2.x，如下。

# -*- coding: utf-8 -*-
from __future__ import print_function

import sys
reload(sys)
sys.setdefaultencoding(‘utf8‘)

3，运行spark的节点很可能不能连接外网，需要proxy，然后会发现各种http_proxy环境变量都没有用，ANT_OPTS也没有用，生效的是spark.driver.extraJavaOptions，如下：

spark2-submit --conf "spark.driver.extraJavaOptions=-Dhttp.proxyHost=xxx -Dhttp.proxyPort=xxx -Dhttps.proxyHost=xxx -Dhttps.proxyPort=xxx"

在CDH中安装Spark2

标签：cli chm his gateway ons lan odi from tor

原文地址：https://www.cnblogs.com/dubbo/p/12894213.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行