在spark1.0中属性支持三种配置方式:1、代码在代码中构造SparkConf时指定master、appname或者key-value等val conf = new SparkConf();conf.setAppName("WordCount").setMaster(" spark://hadoo...
分类:
其他好文 时间:
2014-06-25 20:12:25
阅读次数:
286
以后spark,mapreduce,mpi可能三者集于同一平台,各自的侧重点有所不用,相当于云计算与高性能计算的集合,互补,把spark的基础看了看,现在把开发环境看看,主要是看源码,最近Apache Spark源码走读系列挺好的,看了些。具体环境配置不是太复杂,具体可以看https://githu...
分类:
其他好文 时间:
2014-06-25 11:44:47
阅读次数:
185
本文详细讲解了Spark在Standalone模式下的Master的HA的源码分析。
为了解决Standalone模式下的Master的SPOF,Spark采用了ZooKeeper提供的选举功能。Spark并没有采用ZooKeeper原生的Java API,而是采用了Curator,一个对ZooKeeper进行了封装的框架。采用了Curator后,Spark不用管理与ZooKeeper的连接,这些对于Spark来说都是透明的。Spark仅仅使用了100行代码,就实现了Master的HA。当然了,Spark是...
分类:
其他好文 时间:
2014-06-25 07:59:09
阅读次数:
183
线性回归(Linear Regression)问题属于监督学习(Supervised Learning)范畴,又称分类(Classification)或归纳学习(Inductive Learning);这类分析中训练数据集中给出的数据类标是确定的;机器学习的目标是,对于给定的一个训练数据集,通过不断的分析和学习产生一个联系属性集合和类标集合的分类函数(Classification Function)或预测函数(Prediction Function),这个函数称为分类模型(Classification Mo...
分类:
其他好文 时间:
2014-06-24 22:58:23
阅读次数:
585
Apache Hadoop的服务的部署比较繁琐,需要手工处理配置文件、下载依赖包等。Cloudera Manager以GUI的方式的管理CDH集群,提供向导式的安装步骤。由于需要对Hive,HBase,Impala,Spark进行功能测试,就采用了Cloudera Manager方式进行安装。本文讲解的是parcel安装方式。...
分类:
其他好文 时间:
2014-06-24 22:44:17
阅读次数:
501
在zed的PS端运行spark: (1)设置uboot为sd卡启动rootfs: "sdboot=if mmcinfo; then " \ "run uenvboot; " \ "echo Copying Linux from SD to RAM... && " \ ...
分类:
其他好文 时间:
2014-06-24 14:27:44
阅读次数:
497
0、参考自http://tech.uc.cn/?p=2116 http://www.csdn.net/article/2013-07-08/2816149 1、Spark是一个高效的分布式计算系统。它基于MapReduce(MR)算法实现分布式计算,但Job的中间输出和结果可以保存在内存,从...
分类:
其他好文 时间:
2014-06-24 11:32:46
阅读次数:
268
Spark Application可以在集群中并行运行,其关键是抽象出RDD的概念(详见RDD
细解),也使得Spark Application的开发变得简单明了。下图浓缩了Spark的编程模型。
1:Spark应用程序的结构
Spark应用程序可分两部分:driver部分和executor部分初始化SparkContext和主体程序
...
分类:
其他好文 时间:
2014-06-22 21:48:06
阅读次数:
311
DASH Basics: MPD and Segments
Let’s quickly summarize how a DASH content is made of:
MPD: an XML document describing where the various media resources present in the content are located. The med...
分类:
其他好文 时间:
2014-06-22 19:30:15
阅读次数:
232
spark 内存计算 分布式计算平台 Databricks...
分类:
其他好文 时间:
2014-06-21 21:23:20
阅读次数:
319