标签:开发人员 大量 分析 大数据处理 inf pre 中间 一个 递归
我们在前面的文章中给大家介绍了数据查询分析计算系统,数据查询分析计算系统是一个比较常见的系统,其实除了这一个数据查询分析计算系统还有很多系。我们在这篇文章中给大家介绍一下批处理系统和迭代计算系统,希望这篇文章能够给大家带来帮助。
我们首先说说批处理系统。批处理系统中的MapReduce是被广泛使用的批处理计算模式。MapReduce对具有简单数据关系、易于划分的大数据采用“分而治之”的并行处理思想,将数据记录的处理分为Map和Reduce两个简单的抽象操作,提供了一个统一的并行计算框架。批处理系统将复杂的并行计算的实现进行封装,大大降低开发人员的并行程序设计难度。而Hadoop和Spark是典型的批处理系统。MapReduce的批处理模式不支持迭代计算。
说到这里我们给大家介绍一下Hadoop和spark吧,Hadoop是目前大数据处理最主流的平台,是Apache基金会的开源软件项目,使用Java语言开发实现。同时Hadoop平台使开发人员无需了解底层的分布式细节,即可开发出分布式程序,在集群中对大数据进行存储、分析。而Spark是由加州伯克利大学AMP实验室开发,适合用于机器学习、数据挖掘等迭代运算较多的计算任务。Spark引入了内存计算的概念,运行Spark时服务器可以将中间数据存储在RAM内存中,大大加速数据分析结果的返回速度,可用于需要互动分析的场景。Hadoop和spark给别人带来不错的内容。
然后给大家说一说迭代计算系统。这是由于针对MapReduce不支持迭代计算的缺陷,人们对Hadoop的MapReduce进行了大量改进,Haloop、iMapReduce、Twister、Spark是典型的迭代计算系统。而Haloop是Hadoop MapReduce框架的修改版本,用于支持迭代、递归类型的数据分析任务,如PageRank、K-means等。iMapReduce是一种基于MapReduce 的迭代模型,实现了MapReduce 的异步迭代。Twister是基于Java的迭代MapReduce模型,上一轮Reduce的结果会直接传送到下一轮的Map。Spark是基于内存计算的开源集群计算框架。这些都是需要大家掌握的。
以上的内容就是小编为大家介绍的批处理系统以及迭代计算系统的相关内容了,想必大家看了这篇文章以后可能有一点帮助,大家在进行大数据工作的时候还是需要深入了解这些方法的,这样会令我们的工作事半功倍。
标签:开发人员 大量 分析 大数据处理 inf pre 中间 一个 递归
原文地址:https://www.cnblogs.com/CDA-JG/p/10219136.html