浅析 hadoop与spark

时间：2015-07-13 12:29:55 阅读：141 评论：0 收藏：0 [点我收藏+]

标签：

Apache Hadoop和Apache Spark

接下来谈多核机器、 PB级数据和任务，这跟所有从twitter提到的Java或重载机器学习算法类似。谈到Hadoop,不得不说这个应用广泛的框架及它的组件：Hadoop分布式文件系统(HDFS)、资源管理平台(YARN)、数据处理模块(MapReduce)和其他所需的类库和工具(Common)。在这些组件上层还有一些其他很受欢迎的可选工具，比如运行在HDFS上的数据库(HBase)、查询语言平台(Pig)和数据仓库基础结构(Hive)。

Apache Spark 作为一种新数据处理模块，以内存性能和快速执行的弹性分布式数据集(RDDs)而出名，不同于不能高效使用内存和磁盘的Hadoop MapReduce。Databricks公布的最新标准显示当用少于10倍节点的时候，对1PB数据的排序Spark比Hadoop快三倍。

典型的Hadoop用例在于查询数据，而Spark正以其快速的机器学习算法越来越出名。但这只是冰山一角，Databricks如是说：“Spark 使应用程序在Hadoop集群中运行在内存中快100倍，当运行在磁盘中时甚至快10倍”。

小结：Spark是在Hadoop生态系统中的后起之秀，有一个常见的误解是我们现在经常谈它一些不合作或竞争的事情，但是我认为我们在这正在看到这个框架的发展。

浅析 hadoop与spark

标签：

原文地址：http://my.oschina.net/u/1445731/blog/477804

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行