Storm有 7 种类型的stream分组: 1.Shuffle Grouping: 随机分组, 随机派发stream 里面的 tuple,保证每个 bolt 接收到的 tuple 数目大致相同。 2.Fields Grouping: 按字段分组,比如...
分类:
其他好文 时间:
2014-11-24 14:58:39
阅读次数:
210
Spout:spout对象必须是继承Serializable, 因此要求spout内所有数据结构必须是可序列化的spout可以有构造函数,但构造函数只执行一次,是在提交任务时,创建spout对象,因此在task分配到具体worker之前的初始化工作可以在此处完成,一旦完成,初始化的内容将携带到每一个...
分类:
其他好文 时间:
2014-11-24 13:26:18
阅读次数:
172
1.下载storm并解压
2.修改文件 storm.yaml
我这里填的是域名,填ip也可以
hadoop@namenode:~/storm-0.9.2/conf$ vim storm.yaml
# Licensed to the Apache Software Foundation (ASF) under one
# or more contributor licens...
分类:
其他好文 时间:
2014-11-24 01:03:47
阅读次数:
334
Trident主要有5类操作:1、作用在本地的操作,不产生网络传输。2、对数据流的重分布,不改变流的内容,但是产生网络传输。3、聚合操作,有可能产生网络传输。4、作用在分组流(grouped streams)上的操作。5、Merge和join
分类:
其他好文 时间:
2014-11-23 23:06:46
阅读次数:
208
数据流分流和合并数据流经常需要分流与合并操作,如下图所示:分流分流有2钟情况,第一种是,相同的tuple发往下一级不同的bolt, 第二种,分别发送不同的tuple到不同的下级bolt上。发送相同tuple其实和普通1v1 发送一模一样,就是有2个或多个bolt接收同一个spout或bolt的数据 ...
分类:
其他好文 时间:
2014-11-23 22:59:44
阅读次数:
4962
原文链接:http://blog.csdn.net/hguisu/article/details/8454368简单和明了,Storm让大数据分析变得轻松加愉快。当今世界,公司的日常运营经常会生成TB级别的数据。数据来源囊括了互联网装置可以捕获的任何类型数据,网站、社交媒体、交易型商业数据以及其它商...
分类:
其他好文 时间:
2014-11-19 20:28:26
阅读次数:
425
http://blog.csdn.net/weijonathan/article/details/18301321一直以来都想接触Storm实时计算这块的东西,最近在群里看到上海一哥们罗宝写的Flume+Kafka+Storm的实时日志流系统的搭建文档,自己也跟着整了一遍,之前罗宝的文章中有一些要注...
分类:
Web程序 时间:
2014-11-19 10:32:28
阅读次数:
345
1、准备工作2、一个Storm集群的基本组件3、Topologies4、Stream5、数据模型(Data Model)6、一个简单的Topology7、流分组策略(Stream grouping)8、使用别的语言来定义Bolt9、可靠的消息处理10、单机版安装指南本文翻译自:https://git...
分类:
其他好文 时间:
2014-11-18 13:09:04
阅读次数:
216
美团的日志收集系统负责美团的所有业务日志的收集,并分别给Hadoop平台提供离线数据和Storm平台提供实时数据流。美团的日志收集系统基于Flume设计和搭建而成。《基于Flume的美团日志收集系统》将分两部分给读者呈现美团日志收集系统的架构设计和实战经验。第一部分架构和设计,将主要着眼于日志收集系...
分类:
Web程序 时间:
2014-11-18 11:44:44
阅读次数:
312
事先配置2台服务器配置好zookeeper,在配置文件中用zookeeper管理集群,配置文件如下配置文件/conf/storm.yamlsupervisor.slots.ports: 对于每个Supervisor工作节点,需要配置该工作节点可以运行的worker数量。每个worker占用一个单独的...
分类:
其他好文 时间:
2014-11-16 21:28:57
阅读次数:
273