spark集群由两类集群构成:一个驱动程序,多个执行程序。 1、广播变量 broadcast 广播变量为只读变量,它由运行sparkContext的驱动程序创建后发送给会参与计算 的节点。也可被非驱动程序所在节点(即工作节点)访问,访问是调用该变量的value方法。 广播变量是存储在内存中。 sc. ...
分类:
其他好文 时间:
2017-04-10 10:37:53
阅读次数:
266
环境:centos 6.7 最近在学习Linux下Spark集群的搭建,在用vmware虚拟了两台机器后,发现克隆机的网络无法使用,出现:VMware 下LINUX出现:Device eth0 does not seem to be present, delaying initialization. ...
分类:
其他好文 时间:
2017-04-03 22:16:43
阅读次数:
236
转载 美团技术团队 原文地址 http://tech.meituan.com/spark-tuning-basic.html 前言 在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计 ...
分类:
其他好文 时间:
2017-03-12 19:46:35
阅读次数:
224
准备条件:部署hadoop集群部署spark集群安装python(本人安装的是anaconda3,python是3.6)配置环境环境变量:vi.bashrc#添加如下内容
exportSPARK_HOME=/opt/spark/current
exportPYTHONPATH=$SPARK_HOME/python/:$SPARK_HOME/python/lib/py4j-0.10.4-src.zipps:spark里面会自..
分类:
数据库 时间:
2017-03-10 19:26:13
阅读次数:
1637
spark集群搭建 elasticsearch读写数据 spark集群搭建 spark官网:http://spark.apache.org 各个版本:spark-2.1.0, java 1.8.0_121以及elasticsearch-5.2.0 本集群利用的是spark的独立集群管理器 准备N台服 ...
分类:
其他好文 时间:
2017-03-09 16:58:23
阅读次数:
206
Livy的概述(引自社区) Livy(当前是alpha版本)是一个提供rest接口和spark集群交互的服务。它可以提交spark job或者spark一段代码,同步或者异步的返回结果;也提供sparkcontext的管理,通过restfull接口或RPC客户端库。Livy也简化了与spark与应用 ...
分类:
其他好文 时间:
2017-02-12 15:43:27
阅读次数:
4234
[转]http://sofar.blog.51cto.com/353572/1352713 一、基础环境 1、服务器分布10.217.145.244 主名字节点10.217.145.245 备名字节点10.217.145.246 数据节点110.217.145.247 数据节点210.217.145 ...
分类:
其他好文 时间:
2017-02-07 15:12:59
阅读次数:
305
7.2 Spark运行时架构 Spark集群采用的是主/从结构。在一个Spark集群中,有一个节点负责中央协调,调度各个分布式工作节点。这个中央协调节点被称为驱动器节点,与之对应的工作节点被称为执行器节点。驱动器节点可以和大量的执行器节点进行通信,他们也都作为独立的Java程序运行。 7.2.1 驱 ...
分类:
其他好文 时间:
2017-01-24 21:03:35
阅读次数:
234
SparkContext 通常作为入口函数,可以创建并返回一个RDD。 如把Spark集群当作服务端那Spark Driver就是客户端,SparkContext则是客户端的核心; 如注释所说 SparkContext用于连接Spark集群、创建RDD、累加器(accumlator)、广播变量(br ...
分类:
其他好文 时间:
2017-01-11 15:38:38
阅读次数:
398