一、Storm与Spark、Hadoop三种框架对比 Storm与Spark、Hadoop这三种框架,各有各的优点,每个框架都有自己的最佳应用场景。所以,在不同的应用场景下,应该选择不同的框架。1.Storm是最佳的流式计算框架,Storm由Java和Clojure写成,Storm的优点是全内存计算 ...
分类:
其他好文 时间:
2018-12-22 20:35:42
阅读次数:
191
Hadoop分布式文件系统(HDFS)是一种分布式文件系统。它与现有的分布式文件系统有许多相似之处。但是,与其他分布式文件系统的差异是值得我们注意的:HDFS具有高度容错能力,旨在部署在低成本硬件上。(高容错)HDFS提供对数据的高吞吐量访问,适用于具有海量数据集的应用程序。(高吞吐量)HDFS放宽了一些POSIX要求,以实现对文件系统数据的流式访问。(流式访问)HDFS最初是作为ApacheNu
分类:
其他好文 时间:
2018-12-19 17:52:56
阅读次数:
167
首先我们从宏观的视角来窥视下大数据技术框架: 图1 大数据技术框架 从图1可以看出,数据源-数据收集-数据存储-资源管理,这是我们进行数据分析和处理的基本;图中的计算框架包括批处理、交互式分析和流处理: 批处理计算:对时间没有严格要求,吞吐率要高 交互式计算:支持类SQL语言,快速进行数据分析 流式 ...
分类:
其他好文 时间:
2018-12-18 19:51:30
阅读次数:
218
Spark2.x企业级大数据项目实战(实时统计、离线分析和实时ETL)全套课程下载:https://pan.baidu.com/s/1mje6bAoLLPrxUIrM-C2VMg提取码:9n1x本门课程来源于一线生产项目,所有代码都是在现网大数据集群上稳定运行,拒绝Demo。课程涵盖了离线分析、实时分析绝大部分的场景,通过三个实际生产项目教授如何优雅地集成Hadoop、Spark、HBase、Ka
分类:
其他好文 时间:
2018-12-18 12:13:36
阅读次数:
370
Kafka是分布式发布-订阅消息系统。它最初由LinkedIn公司开发,之后成为Apache项目的一部分。Kafka是一个分布式的,可划分的,冗余备份的持久性的日志服务。它主要用于处理活跃的流式数据。 在大数据系统中,常常会碰到一个问题,整个大数据是由各个子系统组成,数据需要在各个子系统中高性能,低 ...
分类:
其他好文 时间:
2018-12-17 02:23:19
阅读次数:
187
流式布局思想# 尽可能不去使用固定属性值# 通过父级来获取相应的属性值# /*view-width view-height*/# width: 80vw;# height: 60vh;# background: orange;# /*流式布局限制条件*/# /*流式布局下宽度最大放大到800px,最 ...
分类:
其他好文 时间:
2018-12-16 11:20:39
阅读次数:
154
最近在重构公司的业务容器化平台,记录一块。关于容器日志的, kubernetes python API本身提供了日志流式数据,在以前的版本是不会输出新数据的,后续版本进行了改进。
分类:
Web程序 时间:
2018-12-12 12:23:27
阅读次数:
244
Flink核心是一个流式的数据流执行引擎,其针对数据流的分布式计算提供了数据分布、数据通信以及容错机制等功能 Flink提供了诸多更高抽象层的API以便用户编写分布式任务: DataSet API, 对静态数据进行批处理操作,将静态数据抽象成分布式的数据集,用户可以方便地使用Flink提供的各种操作 ...
分类:
其他好文 时间:
2018-12-09 16:31:13
阅读次数:
145
1、什么是C/S架构? 2、互联网协议是什么?分别介绍五层协议中每一层的功能? 3、基于tcp协议通信,为何建立链接需要三次握手,而断开链接却需要四次挥手 4、为何基于tcp协议的通信比基于udp协议的通信更可靠? 5、?流式协议指的是什么协议,数据报协议指的是什么协议? 6、什么是socket?简 ...
分类:
其他好文 时间:
2018-12-09 00:31:15
阅读次数:
281
1 介 绍 1.1 流式计算介绍 流式大数据计算主要有以下特征: 1)实时性。流式大数据不仅是实时产生的,也是要求实时给出反馈结果。系统要有快速响应能力,在短时间内体现出数据的价值,超过有效时间后数据的价值就会迅速降低。 2)突发性。数据的流入速率和顺序并不确定,甚至会有较大的差异。这要求系统要有较 ...
分类:
其他好文 时间:
2018-12-08 16:13:09
阅读次数:
208