前面展示了 MapReduce 针对 小量 输入的 工作方式, 现在是时候 整体 了解 系统 并 进入 大数据 流 作为 输入了。 为简单起见,我们的例子 到目前为止 都使用 本地 文件系统 中的文件。 然而 , 为了 分布化,我们需要 把 数据 存储在 分布式文件 系统中, 典型的如 HDFS , ...
分类:
其他好文 时间:
2016-04-10 19:26:49
阅读次数:
225
流式大数据处理的三种框架:Storm,Spark和Samza 许多分布式计算系统都可以实时或接近实时地处理大数据流。本文将对Storm、Spark和Samza等三种Apache框架分别进行简单介绍,然后尝试快速、高度概述其异同。 许多分布式计算系统都可以实时或接近实时地处理大数据流。本文将对三种Ap ...
分类:
其他好文 时间:
2016-04-06 18:34:33
阅读次数:
176
许多分布式计算系统都可以实时或接近实时地处理大数据流。本文将对三种Apache框架分别进行简单介绍,然后尝试快速、高度概述其异同。
Apache Storm
在Storm中,先要设计一个用于实时计算的图状结构,我们称之为拓扑(topology)。这个拓扑将会被提交给集群,由集群中的主控节点(master node)分发代码,将任务分配给工作节点(worker
node)执行。一个拓...
分类:
其他好文 时间:
2016-02-17 15:59:54
阅读次数:
202
实战篇: 在SpringMVC框架中搭建RESTful架构风格来完成客户端与服务器端的低耦合度、可扩展性、高并发与大数据流量的访问。 用RESTful架构的创建步骤: 1.创建一个全新的Web工程 2.导包,导入所需要的所有第三方j...
分类:
编程语言 时间:
2015-11-15 23:31:00
阅读次数:
405
大数据流式计算:关键技术及系统实例孙大为1, 张广艳1,2, 郑纬民1摘要:大数据计算主要有批量计算和流式计算两种形态,目前,关于大数据批量计算系统的研究和讨论相对充分,而如何构建低延迟、高吞吐且持续可靠运行的大数据流式计算系统是当前亟待解决的问题且研究成果和实践经验相对较少.总结了典型应用领域中流...
分类:
其他好文 时间:
2015-10-11 15:19:13
阅读次数:
695
许多分布式计算系统都可以实时或接近实时地处理大数据流。本文将对三种Apache框架分别进行简单介绍,然后尝试快速、高度概述其异同。Apache Storm在Storm中,先要设计一个用于实时计算的图状结构,我们称之为拓扑(topology)。这个拓扑将会被提交给集群,由集群中的主控节点(master...
分类:
其他好文 时间:
2015-07-02 15:29:02
阅读次数:
149
Apache Flink简介Apache Flink是一个可伸缩的开源批处理和流处理平台。其核心模块是一个数据流引擎,该引擎在分布式的流数据处理的基础上提供数据分发、交流、以及容错的功能。...
分类:
Web程序 时间:
2015-05-25 14:40:34
阅读次数:
234
我的上一篇BLOG《大数据处理的两种模式》,谈了大数据基于内存的流式处理和基于硬盘的存储处理。比较这两种处理模式,因为内存的处理性能是硬盘的N个量级,所以流式处理效率要远远高于存储处理,但是流式处理本身有一个缺点,或者说是隐忧,上次没有提到,今天来说一下。...
分类:
其他好文 时间:
2015-05-04 08:38:35
阅读次数:
102
许多分布式计算系统都可以实时或接近实时地处理大数据流。本文将对三种Apache框架分别进行简单介绍,然后尝试快速、高度概述其异同。Apache Storm 在Storm中,先要设计一个用于实时计算的图状结构,我们称之为拓扑(topology)。这个拓扑将会被提交给集群,由集群中的主控节点(ma...
分类:
其他好文 时间:
2015-04-17 07:05:30
阅读次数:
152
如何使用OpenShare部署和运营企业门户
这篇Blog是偏向企业内整体门户部署和运营的指南,是偏向整体管理和规划的,并不是针对终端用户的OpenShare软件操作手册,具体的操作可以上优酷看相关视频。
基础概念:网站是OpenShare企业门户的载体
从根本上讲,使用OpenShare构造的企业门户,其基本载体是网站:文档,联系人,大数据,流程,应用等等等等的所有内容和功能都...
分类:
其他好文 时间:
2015-03-20 10:56:26
阅读次数:
182