搜索关键字：Spark BDAS，搜索到7003个结果！码迷,mamicode.com！

Spark技术内幕：Worker源码与架构解析

Worker所起的作用有以下几个： 1. 接受Master的指令，启动或者杀掉Executor 2. 接受Master的指令，启动或者杀掉Driver 3. 报告Executor/Driver的状态到Master 4. 心跳到Master，心跳超时则Master认为Worker已经挂了不能工作了 5. 向GUI报告Worker的状态...

分类：其他好文时间：2014-08-05 00:50:08 阅读次数：364

Spark SQL CLI 实现分析

本文主要介绍了Spark SQL里目前的CLI实现，代码之后肯定会有不少变动，所以我关注的是比较核心的逻辑。主要是对比了Hive CLI的实现方式，比较Spark SQL在哪块地方做了修改，哪些地方与Hive CLI是保持一致的。基本上Spark SQL在CLI这块的实现很靠近Hive Service项目里的CLI模块，主要类继承体系、执行逻辑差不多都一样。Spark SQL修改的关键逻辑在CLIService内的SessionManager内的OperationManager里，将非元数据查询操作的q...

分类：数据库时间：2014-08-05 00:44:58 阅读次数：939

【互动问答分享】第6期决胜云计算大数据时代Spark亚太研究院公益大讲堂

分类：其他好文时间：2014-08-04 17:08:57 阅读次数：211

Spark on Yarn遇到的几个问题

1 概述 Spark的on Yarn模式，其资源分配是交给Yarn的ResourceManager来进行管理的，但是目前的Spark版本，Application日志的查看，只能通过Yarn的yarn logs命令实现。在部署和运行Spark Application的过程中，如果不注意一些小的细节，也许会导致一些问题的出现。 2 防火墙部署好Spark...

分类：其他好文时间：2014-08-04 14:23:27 阅读次数：297

scala eclipse sbt 应用程序开发

在Eclipse里利用Sbt构建开发Scala程序的一般步骤，并用实例讲解了整个流程。...

分类：系统相关时间：2014-08-04 02:03:06 阅读次数：476

Interlij 13编译Spark程序生成jar包

1、创建项目sp create new project->scala->NOT SBT->next->设置项目名称'sp' 2、导入相关jar包 File->Project Structure->Libraries->点绿色'+'->java->找到spark-assembly-1.0.0-hadoop2.2.0.jar->OK 按照类似的方法导入scala-compiler.jar,...

分类：其他好文时间：2014-08-03 20:39:35 阅读次数：262

Apache Crunch的设计 (上)

Apache Crunch是FlumeJava的实现，为不太方便直接开发和使用的MapReduce程序，开发一套MR流水线，具备数据表示模型，提供基础原语和高级原语，根据底层执行引擎对MR Job的执行进行优化。从分布式计算角度看，Crunch提供的许多计算原语，可以在Spark、Hive、Pig等地方找到很多相似之处，而本身的数据读写，序列化处理，分组、排序、聚合的实现，类似MapReduce各阶段的拆分都可以在Hadoop里找到影子。本文介绍Crunch在数据表示模型、操作原语、序列化处理方面的设计和...

分类：其他好文时间：2014-08-03 18:02:06 阅读次数：267

Apache Spark技术实战之1 -- KafkaWordCount

Spark应用开发实践性非常强，很多时候可能都会将时间花费在环境的搭建和运行上，如果有一个比较好的指导将会大大的缩短应用开发流程。本篇主要讲述如何运行KafkaWordCount，这个需要涉及Kafka集群的搭建，还是说越仔细越好。

分类：其他好文时间：2014-08-02 23:13:04 阅读次数：267

从Storm和Spark Streaming学习流式实时分布式计算系统的设计要点

最近我在做流式实时分布式计算系统的架构设计，而正好又要参见CSDN博文大赛的决赛。本来想就写Spark源码分析的文章吧。但是又想毕竟是决赛，要拿出一些自己的干货出来，仅仅是源码分析貌似分量不够。因此，我将最近一直在做的系统架构的思路整理出来，形成此文。为什么要参考Storm和Spark，因为没有参照效果可能不会太好，尤其是对于Storm和Spark由了解的同学来说，可能通过对比，更能体会到每个具体实现背后的意义。本文对流式系统出现的背景，特点，数据HA，服务HA，节点间和计算逻辑间的消息传递，存储模型，...

分类：其他好文时间：2014-08-02 18:25:23 阅读次数：489

大数据分析技术

大数据分析技术MR ：离线计算框架Storm ：实时计算框架Spark ：内存计算框架YARN 基本架构ResourceManager? 处理客户端请求? 启动/ 监控ApplicationMaster? 监控NodeManager? 资源分配与调度NodeManager? 单个节点上的资源管理? ...

分类：其他好文时间：2014-08-02 09:57:33 阅读次数：285