Spark是一种分布式计算框架,对标Hadoop的MapReduce;MapReduce适用于离线批处理(处理延迟在分钟级)而Spark既可以做离线批处理,也可以做实时处理(SparkStreaming) ①Spark集批处理、实时流处理、交互式查询、机器学习与图计算一体 ②Spark实现了一种分布 ...
分类:
其他好文 时间:
2020-01-21 19:49:30
阅读次数:
71
基本概念: Spark作为新一代大数据计算引擎,因为内存计算的特性,具有比hadoop更快的计算速度。是一个分布式计算框架,旨在简化运行于计算机集群上的并行程序的编写。RDD:是spark核心数据处理模型,弹性分布式数据集(Resilient Distributed Dataset)是分布式内存的一 ...
分类:
其他好文 时间:
2019-11-26 16:12:00
阅读次数:
95
PS:实操部分就省略了哈,准备最近好好看下理论这块,其实我是比较懒得哈!!! <?>MapReduce的概述 MapReduce是一种计算模型,进行大数据量的离线计算。MapReduce实现了Map和Reduce两个功能:其中Map是滴数据集上的独立元素进行指定的操作,生成键——值对形式中间结果。其 ...
分类:
其他好文 时间:
2019-10-07 00:50:10
阅读次数:
157
Hadoop生态圈 摘要:一:基本构成:HDFS(Hadoop分布式文件系统);Mapreduce(分布式计算框架);HBASE(分布式列存数据库); Zookeeper(分布式协作服务);HIVE(数据仓库);Pig(ad-hoc脚本)等。 二:详细了解一下其特性: Hadoop是一个由Apach ...
分类:
其他好文 时间:
2019-09-21 23:05:58
阅读次数:
119
hadoop 分布式计算框架。 common // hdfs //存储 mapreduce //MR,编程模型. yarn //资源调度. 集群部署 1.standard alone/local nothing. 2.伪分布式 一台机器. NN //目录 DN //DataNode,block(12 ...
分类:
其他好文 时间:
2019-09-16 23:50:45
阅读次数:
134
1.什么是Hadoop? Hadoop是一款进行数据处理和分析的软件,包含HDFS(分布式文件存储系统),MapReduce(分布式计算框架),Yarn(分布式资源调度任务分配框架)。 Hadoop来源于谷歌2003-2004年发布的三篇论文,基于这三篇论文doug cutting( 来自 luce ...
分类:
其他好文 时间:
2019-08-18 14:02:04
阅读次数:
112
一、简介 Apache Flume 是一个分布式,高可用的数据收集系统,可以从不同的数据源收集数据,经过聚合后发送到分布式计算框架或者存储系统中。Spark Straming 提供了以下两种方式用于 Flume 的整合。 二、推送式方法 在推送式方法 (Flume style Push based ...
分类:
Web程序 时间:
2019-08-15 09:24:53
阅读次数:
106
MapReduce:分布式计算框架,用来分解大数据量的处理 Map阶段对数据集上的独立元素进行指定的操作,生成键值对形成中间结果,Reduce阶段对中间结果中相同的键的所有值进行规约,以得到最终的结果。 优点: 1)易于编程:简单的实现一些接口 2)可扩展性当计算资源不足时,通过增加机器可以扩展他的 ...
分类:
其他好文 时间:
2019-07-25 00:30:32
阅读次数:
124
1大数据解决的问题? 海量数据的存储:hadoop->分布式文件系统HDFS 海量数据的计算:hadoop->分布式计算框架MapReduce 2什么是MapReduce? 分布式程序的编程框架,java->ssh ssm ,目的:简化开发! 是基于hadoop的数据分析应用的核心框架。 mapre ...
分类:
其他好文 时间:
2019-05-02 09:39:18
阅读次数:
137
一、Mapreduce概述 Mapreduce是分布式程序编程框架,也是分布式计算框架,它简化了开发! Mapreduce将用户编写的业务逻辑代码和自带默认组合整合成一个完整的分布式运算程序,并发的运行在hadoop集群上。 二、Mapreduce优缺点 优点:1.易于编程:只用实现几个接口即可完成 ...
分类:
其他好文 时间:
2019-03-24 09:39:32
阅读次数:
136