搜索关键字：spark sort-based shuffle内幕彻底解密，搜索到7004个结果！码迷,mamicode.com！

打造基于hadoop的网站日志分析系统（5）之spark在日志分析系统里的简单应用

1.下载spark和运行 wget?http://apache.fayea.com/apache-mirror/spark/spark-1.0.0/spark-1.0.0-bin-hadoop2.tgz 我这里下载的是1.0.0版,由于我们只是测试spark的用法所以不需要配置spark集群，只需把下好的文件...

分类：Web程序时间：2014-07-21 10:21:45 阅读次数：206

大数据架构师基础：hadoop家族，Cloudera产品系列等各种技术

大数据我们都知道hadoop，可是还会各种各样的技术进入我们的视野：Spark，Storm，impala，让我们都反映不过来。为了能够更好的架构大数据项目，这里整理一下，供技术人员，项目经理，架构师选择合适的技术，了解大数据各种技术之间的关系，选择合适的语言。我们可以带着下面问题来阅读本文章： 1...

分类：其他好文时间：2014-07-19 21:05:50 阅读次数：236

Spark Catalyst源码分析之SqlParser

本文以Catalyst源代码的角度解析Catalyst的解析器如何解析SQL的生成LogicalPlan的。...

分类：数据库时间：2014-07-19 11:15:13 阅读次数：389

shell 脚本实战笔记(10)--spark集群脚本片段念念碎

前言: 通过对spark集群脚本的研读, 对一些重要的shell脚本技巧, 做下笔记. *). 取当前脚本的目录sbin=`dirname "$0"` sbin=`cd "$sbin"; pwd`代码评注:# 以上代码为获取执行脚本所在的目录的常用技巧# sbin=$(dirname $0) ...

分类：其他好文时间：2014-07-18 19:16:52 阅读次数：239

Apache Spark源码走读之18 -- 使用Intellij idea调试Spark源码

上篇博文讲述了如何通过修改源码来查看调用堆栈，尽管也很实用，但每修改一次都需要编译，花费的时间不少，效率不高，而且属于侵入性的修改，不优雅。本篇讲述如何使用intellij idea来跟踪调试spark源码。

分类：其他好文时间：2014-07-18 17:13:03 阅读次数：210

Spark 个人实战系列(2)--Spark 服务脚本分析

前言: spark最近非常的火热, 本文不讲spark原理, 而是研究spark集群搭建和服务的脚本是如何编写的, 管中窥豹, 希望从运行脚本的角度去理解spark集群. 研究的spark为1.0.1版. spark集群采用standalone模式搭建, 其基础架构为master-slave(w.....

分类：其他好文时间：2014-07-17 23:26:44 阅读次数：345

Spark教程-构建Spark集群（1）

对于90%以上想学习Spark的人而言，如何构建Spark集群是其最大的难点之一，为了解决大家构建Spark集群的一切困难，家林把Spark集群的构建分为了四个步骤，从零起步，不需要任何前置知识，涵盖操作的每一个细节，构建完整的Spark集群。从零起步，构建Spark集群经典四部曲：第一步：搭建H...

分类：其他好文时间：2014-07-17 21:35:29 阅读次数：389

整理对Spark SQL的理解

Catalyst定位其他系统如果想基于Spark做一些类sql、标准sql甚至其他查询语言的查询，需要基于Catalyst提供的解析器、执行计划树结构、逻辑执行计划的处理规则体系等类体系来实现执行计划的解析、生成、优化、映射工作。对应上图中，主要是左侧的TreeNodelib及中间三次转化过程中涉及到的类结构都是Catalyst提供的。至于右侧物理执行计划映射生成过程，物理执行计划基于成本的优化模型，具体物理算子的执行都由系统自己实现。 Catalyst现状在解析器方面提供的是一个简单的scala...

分类：数据库时间：2014-07-16 17:34:38 阅读次数：391

Spark 个人实战系列(1)--Spark 集群安装

前言: CDH4不带yarn和spark, 因此需要自己搭建spark集群. 这边简单描述spark集群的安装过程, 并讲述spark的standalone模式, 以及对相关的脚本进行简单的分析.spark官网: http://spark.apache.org/downloads.html*)安装....

分类：其他好文时间：2014-07-16 16:56:22 阅读次数：235

第一个GraphX程序

程序功能：收集顶点指向的邻居中所在地 /* * 找出每个顶点所指向的邻居中所在的地区 */ import org.apache.spark.SparkContext import org.apache.spark.SparkContext._ import org.apache.spark.SparkConf import scala.collection.mutable.Map impor...

分类：其他好文时间：2014-07-16 16:34:28 阅读次数：299

共7004条上一页 1 ... 685 686 687 688 689 ... 701 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)