Hadoop起源

时间：2017-10-30 18:21:52 阅读：225 评论：0 收藏：0 [点我收藏+]

本文来自Doug Cutting为《Hadoop权威指南》所作之序，感觉读一下还是挺有收获的。

Hadoop 起源于Nutch项目。我们几个人有一段时间一直在尝试构建一个开源的Web搜索引擎，但始终无法有效地将计算任务分配到多台计算机上，即使就只是屈指可数的几台。直到谷歌发表的GFS和MapReduce的相关论文之后，我们的思路才清晰起来。他们设计的系统已经可以精准地解决我们在Nutch项目中面临的问题。于是，我们（两个半天工作制的人）开始着手尝试构建这些系统，将其作为Nutch的一部分。

我们终于让Nutch在20台机器上得以平稳运行，但是又很快意识一点：要想应对大规模的Web数据计算，还必须得让Nutch能在几千台机器上运行，不过这个工作远远不是两个半天工作制开发人员能够搞定的。

几乎就在那个时候，雅虎也对这项技术产生了浓厚的兴趣并迅速组建了一个开发团队。我有幸成为其中一员。我们剥离出Nutch的分布式计算模块，将其称为"Hadoop"。在雅虎的帮助下，Hadoop很快能够真正处理海量的Web数据了。

结论：

Hadoop的前身原来是为了Nutch而服务的，本质上是一个分布式的计算模块；

灵感来源于谷歌的GFS和MapReduce；

Hadoop是为了处理海量的数据。

下一篇，快速拜读GFS和MapReduce的论文。

Hadoop起源

标签：计算机 web 运行 apr 收获权威指南数据 red 一点

原文地址：http://www.cnblogs.com/tuhooo/p/7755416.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行