一.trident 的介绍 trident 的英文意思是三叉戟,在这里我的理解是因为之前我们通过之前的学习topology spout bolt 去处理数据是没有问题的,但trident 的对spout bolt 更高层次的一个抽象,其实现功能是一样的,只不过是trident做了更多的优化和封装.如 ...
分类:
其他好文 时间:
2019-06-24 18:18:49
阅读次数:
103
大数据云计算高级实战Hadoop,Flink,Spark,Kafka,Storm,Docker,ElaticStack高级技术 ...
分类:
其他好文 时间:
2019-06-24 16:54:49
阅读次数:
167
一.stream group分组介绍 Stream 的分组分为随机分组、字段分组、全部分组、全局分组、无分组、直接分组,自定义分组 二.group的介绍 1.Shuffle grouping:通过tuple获取任务到supout,然后再由spout将任务分发到Bolt上。这种分组是随机性的,没有规律 ...
分类:
其他好文 时间:
2019-06-21 18:45:23
阅读次数:
116
以电信通话记录为例 移动呼叫及其持续时间将作为对Apache Storm的输入,Storm将处理和分组在相同呼叫者和接收者之间的呼叫及其呼叫总数。 编程思想: 在storm中,把对数据的处理过程抽象成一个topology,这个topology包含的组件主要是spout、bolt,以及以tuple形式 ...
分类:
其他好文 时间:
2019-06-16 09:24:31
阅读次数:
99
1.1 基本概念 Storm是一个流式计算框架,Storm采用Java和Clojure编写,其优点是全内存计算,所以它的定位是分布式实时计算。 Spark是一个基于内存计算的开源集群计算系统,目的是更快速的进行数据分析。Spark类似于Hadoop MapReduce的通用并行计算框架,Spark基 ...
分类:
其他好文 时间:
2019-06-15 00:24:40
阅读次数:
176
一、静态数据、流数据 以及 批量计算、实时计算 大数据分类两类:静态数据和动态数据(流数据)。针对这两类数据的计算模式分别是批量计算和实时计算。 静态数据:历史数据持久化存储在系统里,这类数据的特点是数据量大、数量有限(数据的时间区间是确定的)。例如企业为了支持决策分析而构建的数据仓库系统。 对这类 ...
分类:
其他好文 时间:
2019-06-14 23:54:29
阅读次数:
224
前面介绍了流计算,在流计算领域,一个热门的计算框架就是-Storm。还是先介绍概念。。。 一、Storm是什么 在流处理过程中,我们除了考虑最重要的数据处理的逻辑,还需要维护消息队列和消费者,考虑消息怎么流、怎么序列化等。而Storm就是这样一个流式计算框架,它为你完成了消息传递等这些通用模块,让你 ...
分类:
其他好文 时间:
2019-06-14 23:33:51
阅读次数:
131
Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架。 与 Hadoop 和 Storm 等其他大数据和 MapReduce 技术相比,Spark 有如下优势。 首先,Spark 为我们提供了一个全面、统一的框架用于管理各种有着不同性质(文本数据、图表数据等)的数据集和数据源 ...
分类:
其他好文 时间:
2019-06-12 11:09:43
阅读次数:
118
单机本地运行storm报错: 错误如下: 解决方法: 1、确认是否初始化collector 2、确认是否是运行本地而不是集群的启动方式 open方法 * 1、在任务集群的工作进程内被初始化,提供spout执行所需要的环境 * 2、conf参数是这个spout的strom配置,提供给拓扑与这台主机上的 ...
分类:
其他好文 时间:
2019-06-11 22:23:36
阅读次数:
216
Fields,个人理解,类似于一张表,你取那些字段以及这些字段所对应的数据给后面的bolt用 这个Field通常和fieldsGrouping分组机制一起使用,这个Field特别难理解,我自己也是在网上看了好多文章,感觉依旧讲的不是很清楚,是似而非,没有抓到重点。这个问题足足困扰了我3-4天时间,一 ...
分类:
其他好文 时间:
2019-06-11 20:51:34
阅读次数:
175