1、安装完spark,进入spark中bin目录: bin/spark-shell scala> val textFile = sc.textFile("/Users/admin/spark/spark-1.6.1-bin-hadoop2.6/README.md") scala> textFile. ...
分类:
系统相关 时间:
2016-08-02 22:16:25
阅读次数:
256
进入交互界面./bin/spark-shell创建textFile,从本地文件,val textFile = sc.textFile("file:///usr/local/spark/README.md")从HDFS读取,scala> val textFile = sc.textFile("inpu... ...
分类:
其他好文 时间:
2016-06-25 08:25:25
阅读次数:
345
TaskSchedulerBackend与SchedulerBackend
FIFO与FAIR两种调度模式
Task数据本地性资源的分配
一、TaskScheduler运行过程(Spark-shell角度)
1.启动Spark-shell
当我们spark-shell本身的时候命令终端返回来的主要是ClientEndpoint和SparkDeploySchedulerBakcend。这是因为此时...
分类:
编程语言 时间:
2016-05-18 19:00:17
阅读次数:
230
本节课内容:
1. TaskSchedulerBackend与SchedulerBackend
2. FIFO与FAIR两种调度模式
3. Task数据本地性资源的分配...
分类:
编程语言 时间:
2016-05-15 12:39:52
阅读次数:
434
Spark 的 shell 是一个强大的交互式数据分析工具。 1. 搭建Spark 2. 在 Spark 目录里使用下面的方式开始运行: 3. ...
分类:
系统相关 时间:
2016-05-13 10:01:39
阅读次数:
201
RDD持久化、广播、累加器实质上分别涉及了RDD的数据如何保存,RDD在构建高效算法的时候涉及了persist或者checkpoint,以及广播和累加器,通过spark-shell可以试验一些小功能,spark-shell本身是spark的发行包推出的一个程序,通过这个程序可以直接写代码,spark-shell会把代码..
分类:
其他好文 时间:
2016-05-08 12:09:39
阅读次数:
1173
1)在win7下使用spark shell运行spark程序,通过以下形式读取文件时 偶尔会出现“Input path does not exist”,原因是没有使用“file:///”表示文件时本地文件系统上的文件,相对路径形式如下: 不过,还可以使用绝对路径,更保险些。 ...
分类:
其他好文 时间:
2016-04-26 00:27:42
阅读次数:
153
使用方法: ./spark-script.sh your_file.scala first_arg second_arg third_arg 脚本: scala_file=$1 shift 1 arguments=$@ #set +o posix # to enable process substi
分类:
系统相关 时间:
2016-03-11 14:10:19
阅读次数:
813
通过word count在spark-shell中执行的过程,我们想看看spark-shell做了什么?spark-shell中有以下一段脚本,见代码清单1-1。 代码清单1-1 spark-shell 1 2 3 4 5 6 7 8 9 10 11 function main() { if $cy
分类:
系统相关 时间:
2016-03-10 23:13:16
阅读次数:
268
Hadoop提供的对其HDFS上的数据的处理方式,有以下几种, 1 批处理,mapreduce 2 实时处理:apache storm, spark streaming , ibm streams 3 交互式: 如pig , spark shell 都可以提供交互式地数据处理 4 sql: hive...
分类:
其他好文 时间:
2016-02-22 19:00:09
阅读次数:
156