2016-12-20

时间：2016-12-20 07:42:09 阅读：121 评论：0 收藏：0 [点我收藏+]

初识Storm

1.storm有一个分支，则这个分支一个事jstorm，这个是阿里巴巴将要开源的
2.离线计算:
批量获取数据，批量传输数据
代表技术:Sqoop批量导入数据，HDFS批量存储数据，MapReduce批量计算数据
大量消耗hive，消耗大量SQL语句
主要工作量:
1.hivesql(工作量较多)
2.调度平台
3.hadoop 集群运维
4.数据清洗(脚本语言)
5.元数据管理
6.数据稽查
7.数据仓库模型架构

3.流式计算:
数据实时产生产生，数据实时传输，数据实时计算，实时展示
代表技术:Flume实时获取数据,Kafka/metag实时数据存储，Storm/JStorm实时数据计算,Redis实时结果缓存，持久化存储
一句话总结:将源源不断的产生的数据实时手机并实时计算，尽可能快的得到计算结果

4.离线计算与实时计算的区别
最大的区别:实时收集，实时计算，实时展示

Storm用来实时处理数据，特点:低延迟,高可用,分布式，可扩展，数据不丢失，提供简单容易理解的接口，便于开发。

我们为什么要进行实时监控:
1.例如11.11，我们可以监控自己的流量情况，根据实时的情况可以发一些优惠券，从而可以最大限度的刺激消费
2.对于业务人员,可以看自己的所管辖的业务范围内，根据用户所喜爱的东西来适当的发布优惠券，例如对于用户所喜爱的，我们可以少发布优惠券，对于用户不喜爱的产品，我们可以大量发布优惠券，从而可以起到刺激消费的功能，
以上两点就是为什么要进行实时监控的原因

海量数据：
数据类型很多，产生数据的终端很多，处理数据能力增强
Storm用来实时处理数据，特点:低延迟，高可用，分布式，可扩展，数据不丢失，提供简单容易理解的接口，便于开发。

2016-12-20

标签：为什么 oop 导入数据阿里巴巴区别导入流式计算 pre 数据类型

原文地址：http://www.cnblogs.com/wnbahmbb/p/6201249.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行