一、大数据的基本特征(4V,存储单位) 二、大数据对思维方式的影响 三、Google 三辆马车是什么? Google的文件系统GFS(Google File System)、分布式计算框架MapReduce、Bigtable 四、Hadoop 是什么,基本特征 基本特征: 五、Hadoop 生态系统 ...
分类:
其他好文 时间:
2021-06-28 18:27:13
阅读次数:
0
Actor模型的理念: 所有对象皆是Actor,Actor之间仅通过Message Passing来通信,所有操作都是异步的,使得整个系统获得大规模的并发能力。 Actor消息内容,一般包括几个主要属性: source:发送方 subject:主题,表明消息类型。 data:消息内容。 Actor收 ...
分类:
其他好文 时间:
2021-06-06 19:34:39
阅读次数:
0
@ 前言-MR概述 MapReduce是一个分布式计算框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。主要由两部分组成:编程模型和运行时环 境。其中,编程模型为用户提供了非常易用的编程接口,用户只需要像编写串行程序 一样实现几个简单的函数即可实现一个分布式程序,而其他比较复杂的工作,如 ...
分类:
其他好文 时间:
2021-06-02 19:46:24
阅读次数:
0
1.用图表描述Hadoop生态系统的各个组件及其关系。 2.阐述Hadoop生态系统中,HDFS, MapReduce, Yarn, Hbase及Spark的相互关系。 Hadoop对应于Google三驾马车:HDFS对应于GFS,即分布式文件系统,MapReduce即并行计算框架,HBase对应于 ...
分类:
其他好文 时间:
2021-03-02 12:10:47
阅读次数:
0
Hadoop是一个能够对海量数据进行分布式处理的系统架构,主要包含3大块:分布式存储系统HDFS(Hadoop Distributed File System)分布式存储层、分布式计算框架MapReduce分布式计算层、资源管理系统YARN(Yet Another Resource Negotiat... ...
分类:
其他好文 时间:
2020-06-27 11:40:19
阅读次数:
93
一、简介 Apache Flume 是一个分布式,高可用的数据收集系统,可以从不同的数据源收集数据,经过聚合后发送到分布式计算框架或者存储系统中。Spark Straming 提供了以下两种方式用于 Flume 的整合。 二、推送式方法 在推送式方法 (Flume-style Push-based ...
分类:
Web程序 时间:
2020-06-27 00:19:37
阅读次数:
77
恢复内容开始 大数据的分布式计算框架目前使用的最多的就是hadoop的mapReduce和Spark,mapReducehe和Spark之间的最大区别是前者较偏向于离线处理,而后者重视实现性,下面主要介绍mapReducehe和Spark两者的shuffle过程。 MapReduce的Shuffle ...
分类:
其他好文 时间:
2020-06-08 19:17:29
阅读次数:
88
1 介绍 1.1 概念 面向批处理的分布式计算框架 一种编程模型:MapReduce程序被分为Map(映射)阶段和Reduce(化简)阶段 1.2 核心思想 分而治之,并行计算 移动计算,而非移动数据 1.3 特点 计算跟着数据走 良好的扩展性:计算能力随着节点数增加,近似线性递增 高容错 状态监控 ...
分类:
其他好文 时间:
2020-05-07 00:30:19
阅读次数:
80
每一个模式描述了一个在我们周围不断重复发生的问题及该问题解决方案的核心。这样,你就能一次又一次地使用该方案而不必做重复工作。 所谓网站架构模式即为了解决大型网站面临的高并发访问、海量数据、高可靠运行等一系列问题与挑战。为此,在实践中提出了许多解决方案,以实现网站高性能、高可靠性、易伸缩、可扩展、安全等各种技术架构目标。
分类:
其他好文 时间:
2020-03-30 00:25:23
阅读次数:
252
2020.2.2今天的寒假生活学习了了解Spark 内存计算框架.Hadoop使用数据复制来实现容错性,而Spark使用RDD数据存储模型来实现数据的容错性。 了解了 hadoop框架 中的 HDFS(分布式文件系统) Mapreduce(分布式计算框架) map函数 Reduce (函数) YAR ...
分类:
其他好文 时间:
2020-02-02 21:55:13
阅读次数:
73