作为IT类职业中的“大熊猫”,大数据人才(数据工程师,数据分析师,数据挖掘师,算法工程师等)、在国内人才市场可谓是一颗闪耀的新星。由于刚刚出于萌芽阶段,这个领域出现很大的人才缺口。学习大数据,你的职业是如何规划的?1大数据人才做什么?2需要具备的能力2.1精通SQL2.2数据模型技能2.3ETL设计2.4架构项目3知识体系机器学习基础机器学习工具3.1大数据通用处理平台3.2分布式存储3.3资源调
分类:
其他好文 时间:
2019-07-07 09:13:54
阅读次数:
130
市场变化越来越快,企业对于数据及时性的需求,也越来越大,另一方面,当下数据容量呈几何倍暴增,数据的价值在其产生之后,也将随着时间的流逝,逐渐降低。因此,我们最好在事件发生之后,迅速对其进行有效处理,实时,快速地处理新产生的数据,帮助企业快速地进行异常管理和有效决策,而不是待数据存储在一起之后,再进行... ...
分类:
其他好文 时间:
2019-06-18 20:05:52
阅读次数:
100
Flink流式计算原理,包括Structured Streaming,Continuous Queries,Handling Event-time,Handling Late Data,Watermarks ...
分类:
其他好文 时间:
2019-06-15 11:47:47
阅读次数:
85
1.1 基本概念 Storm是一个流式计算框架,Storm采用Java和Clojure编写,其优点是全内存计算,所以它的定位是分布式实时计算。 Spark是一个基于内存计算的开源集群计算系统,目的是更快速的进行数据分析。Spark类似于Hadoop MapReduce的通用并行计算框架,Spark基 ...
分类:
其他好文 时间:
2019-06-15 00:24:40
阅读次数:
176
前面介绍了流计算,在流计算领域,一个热门的计算框架就是-Storm。还是先介绍概念。。。 一、Storm是什么 在流处理过程中,我们除了考虑最重要的数据处理的逻辑,还需要维护消息队列和消费者,考虑消息怎么流、怎么序列化等。而Storm就是这样一个流式计算框架,它为你完成了消息传递等这些通用模块,让你 ...
分类:
其他好文 时间:
2019-06-14 23:33:51
阅读次数:
131
案例一:统计网站访问量(实时统计) 实时流式计算框架:storm 1)spout 数据源,接入数据源 本地文件如下 编写spout程序: 2)splitbolt 业务逻辑处理 切分数据 拿到网址 3)bolt 累加次数求和 4)Driver 使用字段分组 运行结果如下: 总共190条数据。统计完成之 ...
分类:
Web程序 时间:
2019-06-07 12:34:28
阅读次数:
117
前言 Flink 是一种流式计算框架,为什么我会接触到 Flink 呢?因为我目前在负责的是监控平台的告警部分,负责采集到的监控数据会直接往 kafka 里塞,然后告警这边需要从 kafka topic 里面实时读取到监控数据,并将读取到的监控数据做一些 聚合/转换/计算 等操作,然后将计算后的结果 ...
分类:
Web程序 时间:
2019-05-28 09:24:30
阅读次数:
181
一、dubbo介绍 随着互联网的不断发展,网站的规模也越来越大,常规的垂直应用架构已经不能再满足开发的需求,分布式服务架构和流式计算架构已成为趋势。 单一应用架构:当网站流量很小时,只需要一个应用,将所有的功能都部署在一起,以减少部署节点个成本。 垂直应用架构:当访问量逐渐增大,单一应用增加机器带来 ...
分类:
其他好文 时间:
2019-05-23 21:22:06
阅读次数:
115
大数据技术之Kafka一 Kafka概述 1.1 Kafka是什么 在流式计算中,Kafka一般用来缓存数据,Storm通过消费Kafka的数据进行计算。 1)Apache Kafka是一个开源消息系统,由Scala写成。是由Apache软件基金会开发的一个开源消息系统项目。 2)Kafka最初是由 ...
分类:
其他好文 时间:
2019-05-01 14:52:35
阅读次数:
142
1、Storm与Kafka集成 我们知道storm的作用主要是进行流式计算,对于源源不断的均匀数据流流入处理是非常有效的, 而现实生活中大部分场景并不是均匀的数据流,而是时而多时而少的数据流入,这种情况下显然用批量处理是不合适的, 如果使用storm做实时计算的话可能因为数据拥堵而导致服务器挂掉,应 ...
分类:
其他好文 时间:
2019-04-26 11:28:06
阅读次数:
153