最近看了比较多的关于大数据处理方面的知识,但是例如Hadoop,Spark,Storm等平台大都是对于数据的存储和管理操作,并不是对于数据进行分析和处理的。所以这里就衍生出了另外一种对于数据的处理,数据挖掘。学习数据挖掘也非常偶然,首先毕竟本人一直在做的是数据方面的工作,数据挖掘相当于是对数据处理后的下一步操作,学习一下数据挖掘的基本知识,了解了解常用的一些数据挖掘算法,对我来说也是一件不错的事。...
分类:
其他好文 时间:
2014-12-05 17:27:05
阅读次数:
151
本文主要分析storm的worker进程间消息传递机制,消息的接收和处理的大概流程见下图在Storm中,worker进程内部的thread通信与worker进程间的通信有一些差别,worker间的通信经常需要通过网络跨节点进行,Storm使用ZeroMQ或Netty(0.9以后默认使用)作为进程间通信的消息框架。work..
分类:
系统相关 时间:
2014-12-04 15:57:44
阅读次数:
202
本文翻译自:?https://github.com/nathanmarz/storm/wiki/Tutorial Storm是一个分布式的、高容错的实时计算系统。 Storm对于实时计算的的意义相当于Hadoop对于批处理的意义。Hadoop为...
分类:
其他好文 时间:
2014-12-04 01:13:02
阅读次数:
467
第五章 一致性事务 Storm是一个分布式的流处理系统,利用anchor和ack机制保证所有tuple都被成功处理。如果tuple出错,则可以被重传,但是如何保证出错的tuple只被处理一次呢?Storm提供了一套事务性组件Transacti...
分类:
其他好文 时间:
2014-12-03 12:39:05
阅读次数:
219
源地址:http://storm.apache.org/documentation/Setting-up-a-Storm-cluster.html
本文叙述了storm集群搭建和运行步骤。如果你打算在AWS上进行的话,可以使用storm-deploy项目。storm-deploy在EC2上完全自动进行下载、配置、以及storm集群的安装等步骤。它也为你配置了Ganglia,用以监控CPU、...
分类:
其他好文 时间:
2014-12-03 00:34:03
阅读次数:
190
在配置一个Storm环境之前,首先需要一个Linux操作系统。常见的linux系统有CentOS、Red Hat、Ubuntu等,我使用的是Ubuntu 14.04。系统尽量是最新的,对于旧版本的ubuntu,软件源支持不太好,apt-get install会发生错误 总的来说,storm安装...
分类:
其他好文 时间:
2014-12-02 23:55:23
阅读次数:
236
我们知道Storm有一个很重要的特性,那就是Storm API能够保证它的一个Tuple能够被完全处理,这一点尤为重要,下面就给大家介绍一下storm中的可靠性。
1.Spout的可靠性保证
在Storm中,消息处理可靠性从Spout开始。为了保证数据能正确的被处理, 对于spout产生的每一个tuple,storm都能进行跟踪, 这里面涉及到ack/fail的处理, 如果一个tup...
分类:
其他好文 时间:
2014-12-02 20:56:26
阅读次数:
384
源地址:http://storm.apache.org/documentation/Fault-tolerance.html
本文主要介绍Storm作为容错系统的设计细节。
当worker死掉时会发生什么?
当worker死掉时, supervisor将重启它。 如果worker启动总是失败,则worker就不能发送心跳消息给Nimbus, 那Nimbus就会...
分类:
其他好文 时间:
2014-11-29 00:18:19
阅读次数:
175
转载请注明出处:
源地址:http://storm.apache.org/documentation/Guaranteeing-message-processing.html
Storm保证:每条离开spout的消息都可以得到"fullyprocessed"。本文描述了storm如何实现这种保证以及你如何能够从Storm这种可靠性能力中受益。
"fully proce...
分类:
其他好文 时间:
2014-11-28 16:20:03
阅读次数:
273
线上部分实时job是用storm开发的,为了监控数据的延迟,在storm处理日志的时候会把日志的时间插入到redis中,然后通过zabbix做延迟的监控。由于经常有新的job上线,手动配置监控项就变得比较麻烦,为了解放生产力,还是需要搞成自动化。之前添加网卡和分区监控的时候用了LLD的..
分类:
其他好文 时间:
2014-11-28 06:26:22
阅读次数:
298