搜索关键字：spark教程，搜索到41个结果！码迷,mamicode.com！

spark 教程二 spark中的一些术语和概念

1.Application:基于spark的用户程序，包含了一个driver program 和集群中多个 executor 2.Driver Program:运行application的main()函数并自动创建SparkContext。通常SparkContext 代表driver progra ...

分类：其他好文时间：2017-07-07 17:29:23 阅读次数：210

spark 教程一 RDD和核心概念

1.RDD 的介绍 RDD 是spark的核心概念，可以将RDD是做数据库中的一张表，RDD可以保存任何类型的数据，可以用API来处理RDD及RDD中的数据，类似于Mapreduce， RDD 也有分区的概念。RDD是不可变的可以变换（Transformation）操作RDD，但是这个变换返回的是一 ...

分类：其他好文时间：2017-07-07 15:26:01 阅读次数：154

Spark 教程：Spark的体系架构

最近看到一篇关于Spark架构的博文，作者是 Alexey Grishchenko。看过Alexey博文的同学应该都知道，他对Spark理解地非常深入，读完他的 “spark-architecture” 这篇博文，有种醍醐灌顶的感觉，从JVM内存分配到Spark集群的资源管理，步步深入，感触颇多（腾 ...

分类：其他好文时间：2016-09-03 09:41:07 阅读次数：178

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第五步）（6）

结束historyserver的命令如下所示：第四步：验证Hadoop分布式集群首先在hdfs文件系统上创建两个目录，创建过程如下所示：Hdfs中的/data/wordcount用来存放Hadoop自带的WordCount例子的数据文件，程序运行的结果输出到/output/wordcount目录中，透过Web控制可以发现我们成功创建..

分类：其他好文时间：2014-11-03 16:35:08 阅读次数：127

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第五步）（6）

结束historyserver的命令如下所示：第四步：验证Hadoop分布式集群首先在hdfs文件系统上创建两个目录，创建过程如下所示： Hdfs中的/data/wordcount用来存放Hadoop自带的WordCount例子的数据文件，程序运行的结果输出到/output/wordcount目录中，透过Web控制可以发现我们成功创建了两个文件夹： ...

分类：其他好文时间：2014-11-03 16:31:40 阅读次数：142

【互动问答分享】第18期决胜云计算大数据时代Spark亚太研究院公益大讲堂

“决胜云计算大数据时代”Spark亚太研究院100期公益大讲堂【第18期互动问答分享】Q1：Master和Driver的是同一个东西吗？两者不是同一个东西，在Standalone模式下Master是用于集群资源管理和调度的，而Driver适用于指挥Worker上的Executor通过多线的方式处理任务的；Master位于..

分类：其他好文时间：2014-10-31 15:58:01 阅读次数：219

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第五步）（5）

从控制台我们可以看见有两个DataNode，此时我们点击“LiveNodes”查看一下其信息：从控制台中看到了我们的两个Datanode节点SparkWorker1和SparkWorker2，这正是我们预期中的！第三步：启动yarn集群使用jps命令可以发现SparkMaster机器上启动了ResourceManager进程：而在SparkWo..

分类：其他好文时间：2014-10-21 10:27:47 阅读次数：163

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第五步）（5）

从控制台我们可以看见有两个DataNode，此时我们点击“Live Nodes”查看一下其信息：从控制台中看到了我们的两个Datanode节点SparkWorker1和SparkWorker2，这正是我们预期中的！第三步：启动yarn集群使用jps命令可以发现SparkMaster机器上启动了ResourceManager进程：而在Spa...

分类：其他好文时间：2014-10-21 10:24:25 阅读次数：230

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第五步）（4）

7,在SparkWorker1和SparkWorker2上完成和SparkMaster同样的Hadoop 2.2.0操作，建议使用SCP命令把SparkMaster上安装和配置的Hadoop的各项内容拷贝到SparkWorker1和SparkWorker2上; 8,启动并验证Hadoop分布式集群第一步：格式化hdfs文件系统：第二步：进入...

分类：其他好文时间：2014-10-16 16:28:02 阅读次数：269

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第五步）（2）

把下载下来的“hadoop-2.2.0.tar.gz”拷贝到“/usr/local/hadoop/”目录下并解压：修改系统配置文件，修改~/.bashrc文件配置“HADOOP_HOME”并把“HADOOP_HOME”下的bin文件夹加入PATH中，修改完后使用source命令使配置生效。接下来在hadoop目录下按照如下命令创建文件夹：接下..

分类：其他好文时间：2014-10-09 20:58:38 阅读次数：216

共41条上一页 1 2 3 4 5 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)