希望上一篇背景篇让大家对流式计算有了宏观的认识,本篇根据官网是介绍概念,先让我们看看有哪些东西呢?
概念一:Streams
Samza是处理流的。流则是由一系列不可变的一种相似类型的消息组成。举个例子,一个流可能是在一个网站上的所有点击,或者更新到一个特定数据库表的更新操作,或者是被一个服务或者事件数据生成所有日志信息。消息能够被加到另一个流之后或者从一个流中读取。一个...
分类:
其他好文 时间:
2014-10-27 23:05:34
阅读次数:
699
大数据日知录:架构与算法
跳转至:
导航、
搜索
目录
1
当谈论大数据时我们在谈论什么2
数据分片与路由3
数据复制与一致性4
大数据常用算法与数据结构5
集群资源管理与调度6
分布式协调系统7
分布式通信8
数据通道9
分布式文件系统10
内存KV11
列式数据库12
大规模批处理13
流式计算14
交互式数据分...
分类:
编程语言 时间:
2014-10-27 21:24:29
阅读次数:
341
本文是我对分布式计算的算子这层的一些认识和想法。因为最近自己的开发任务也是这方面相关的,公司内部有自研的类流式计算框架需要做一层算子层。我主要分析的是流式系统上实现算子这一点入手,对比现有计算框架和业界正在开展的项目,分析分析这件事的表面和背后深层的含义,以及可想象空间。...
分类:
其他好文 时间:
2014-09-26 19:59:38
阅读次数:
220
Storm是一个分布式的、可靠的、容错的数据流处理系统(流式计算框架,可以和mapreduce的离线计算框架对比理解)。 整个任务被委派给不同的组件,每个组件负责一个简单的特定的处理任务。Storm集群的输入流是一个叫...
分类:
其他好文 时间:
2014-09-23 13:10:17
阅读次数:
348
1:Spark生态和安装部署
Spark生态
Spark(内存计算框架)
SparkSteaming(流式计算框架)
Spark SQL(ad-hoc)
Mllib(Machine Learning)
GraphX(bagel将被取代)
安装部署
Spark安装简介
Spark的源码编译
Spark Standalone安装
Spark Standalone H...
分类:
其他好文 时间:
2014-07-22 00:27:35
阅读次数:
317
Apache Storm是一个免费、开源、分布式的实时计算系统。相对于Hadoop适用于批处理而言,利用Storm可以非常容易地对流式数据进行实时可靠处理。Storm使用简单,支持多种编程语言且非常有趣!...
分类:
其他好文 时间:
2014-06-26 14:20:52
阅读次数:
294
Storm官方文档分为几个部分:
第一部分,主要是有关Storm的一些入门介绍,具体涉及四个子项:前言、使用教程、环境安装、工程示例
第二部分,主要是一些专题介绍,针对Storm框架的一些核心内容进行深入讲解。因此,相对于第一部分而言,要深入一些,具体涉及三个子项:使用指南、Java doc、FAQ
第三部分,介绍如何从社区中获取帮助。
第四部分,介绍Storm周边生态。
对于前两部...
分类:
其他好文 时间:
2014-06-26 07:16:57
阅读次数:
239
传统的消息模型有两种模型,队列模型和发布-订阅模式。
1. 队列形式中,一群消费者可能从server那边读消息,而每条消息会流向他们中的一个。
2. 发布-订阅模式中,消息会广播到所有它的消费者们那。
Kafka是使用consumer group这个概念(下面把它翻译为"消费组"),把两者结合了。。
消费者给自己标志了一个消费组名,每条新发布到topic的消息会被传递给订阅它的消费组里的消费者实例,这些消费者实例可以是不同的进程,存在在不同的机器上。
如果所有的消费者在同一个消费组里,那么这相当于是...
分类:
其他好文 时间:
2014-05-21 16:12:44
阅读次数:
279