01-大数据快速入门基础02-Scala学习进击大数据Spark生态圏03-Spark从入门到项目实战大师课04-大数据系统学习全套视频教程(视频.源码.课件)05-大数据系统学习项目实战就业班课程06-大数据之Spark零基础到实战07-大数据项目实战视频hadoop spark实时计算项目实战教 ...
分类:
其他好文 时间:
2019-11-27 23:18:45
阅读次数:
126
一、收集应用领域信息 我做的题目是海量用户行为实时分析系统的设计与实现。需要设计并实现一个基于流计算的实时计算引擎。目前常用的实时流计算引擎有Flink、Storm等。其主要实现方法是基于事件流,根据用户给定的条件进行实时处理,最后输出用户需要的结果。 二、头脑风暴 根据需求,我们讨论并整理出了技术 ...
分类:
其他好文 时间:
2019-11-22 20:55:09
阅读次数:
82
特征: 持续到达,数据量大,注重数据整体价值,数据顺序可能颠倒,丢失,实时计算, 海量,分布,实时,快速部署,可靠 linked in Kafka spark streaming:微小批处理,模拟流计算,秒级响应 DStream 一系列RDD 的集合 支持批处理 创建文件流 10代表每10s启动一次 ...
分类:
其他好文 时间:
2019-11-05 18:49:38
阅读次数:
98
spark 简介 建议先阅读我的博客 大数据基础架构 spark 一个通用的计算引擎,专门为大规模数据处理而设计,与 mapreduce 类似,不同的是,mapreduce 把中间结果 写入 hdfs,而 spark 直接写入 内存,这使得它能够实现实时计算。 spark 由 scala 语言开发, ...
分类:
其他好文 时间:
2019-10-02 12:51:02
阅读次数:
1950
1. UV、PV、TopN概念 1.1 UV(unique visitor) 即独立访客数 指访问某个站点或点击某个网页的不同IP地址的人数。在同一天内,UV只记录第一次进入网站的具有独立IP的访问者,在同一天内再次访问该网站则不计数。UV提供了一定时间内不同观众数量的统计指标,而没有反应出网站的全 ...
分类:
其他好文 时间:
2019-10-01 09:14:38
阅读次数:
397
传统数据基础架构 传统单体数据架构最大的特点便是集中式数据存储,大多数分为计算层和存储层。 存储层,主要是负责存储企业各种系统产生的数据,如 Web 业务系统、订单系统、CRM 系统,ERP 系统、监控系统,数据比如系统的订单交易量,网站的活跃用户数,每个用户的交易额。 所有的操作均需要借助于同一套 ...
分类:
其他好文 时间:
2019-09-19 01:45:58
阅读次数:
108
恢复内容开始 一.基本概念 1.什么是storm? storm是一个免费的开源分布式实时计算系统,流数据框架,可以轻松可靠地处理无限数据流,实现Hadoop为批处理所做的实时处理。 2.使用场景 实时分析,在线机器学习,连续计算。 流计算 3.特点 速度快,每秒每个节点可以处理超过百万个元组 具有可 ...
分类:
其他好文 时间:
2019-09-17 21:59:42
阅读次数:
122
一、Storm 1.1 简介 Storm 是一个开源的分布式实时计算框架,可以以简单、可靠的方式进行大数据流的处理。通常用于实时分析,在线机器学习、持续计算、分布式 RPC、ETL 等场景。Storm 具有以下特点: + 支持水平横向扩展; + 具有高容错性,通过 ACK 机制每个消息都不丢失; + ...
分类:
其他好文 时间:
2019-09-03 09:38:28
阅读次数:
91
Flink对于流处理架构的意义十分重要,Kafka让消息具有了持久化的能力,而处理数据,甚至穿越时间的能力都要靠Flink来完成。 在 "Streaming 大数据的未来" 一文中我们知道,对于流式处理最重要的两件事,正确性,时间推理工具。而Flink对两者都有非常好的支持。 Flink对于正确性的 ...
分类:
其他好文 时间:
2019-09-02 14:01:54
阅读次数:
92
大数据也是构建各类系统的时候一种全新的思维,以及架构理念,比如Storm,Hive,Spark,ZooKeeper,HBase,Elasticsearch,等等 storm,在做热数据这块,如果要做复杂的热数据的统计和分析,亿流量,高并发的场景下,最合适的技术就是storm,没有其他 举例说明: S ...
分类:
其他好文 时间:
2019-09-01 21:30:29
阅读次数:
177