标签:keep jdbc pac inspector top 数据 nbsp zookeeper sqoop
一.什么是实时计算系统?(流式计算)
1.离线计算和实时计算
离线计算 实时计算(流式计算)
典型代表 mapReduce Apache Strom,Spark Streaming 和JStream
数据 HDFS上 实时数据
采集数据 Sqoop(批量导入) Flume进行采集
保存结果 HDFS Redis上 (HDFS,HBase,Hive,JDBC[oracle,mysql])
2.举例 : 自来水场处理自来水
3,strom体系结构
(*) 主节点 : nimbus
从节点 : supervisor
(*) Topology任务 = spout任务 + bolt任务
spout任务 :采集数据
bolt任务 :处理数据 ,可以级联
4. Strom中的WordCount
(*) 启动过程
(1)启动ZK,zkServer.sh start -- ZooInspector工具 zookeeper查看器
(2)启动nimbus Strom nimbus &
(3) 启动从节点 strom supervisor &
(4) 启动UI: strom ui &
(5) 启动日志: strom logviewer &
(*)启动WordCount :
strom jar strom-starter-topologies.jar org.apache.strom.starter.WordCountTopology MyWC
5. 分析一个任务的数据的流动过程(strom的编程模型)
Topology任务 = spout任务 + bolt任务
spout任务 :采集数据
bolt任务 :处理数据 ,可以级联
二 基于apache strom 的实时消息处理系统,即:流式处理系统
三 传统的基于中间件 weblogic JMS的消息处理系统
1. JMS :java Messaging Service,支持Queue,Topic
2.什么是消息 ?
(*) point-to-point :Queue 队列
(*) Publish-Subscribe :Topic 广播
四 基于Apache kafka 的实时消息系统
1.只支持Topic(广播)
Apache Strom和Kafka的简单笔记 (零) - 开端
标签:keep jdbc pac inspector top 数据 nbsp zookeeper sqoop
原文地址:http://www.cnblogs.com/fubinhnust/p/7173787.html