分布式计算被誉为高端的东东,我想也是每个程序员都想涉足的领域了。前一段时间项目中遇到了大数据计算的问题,一般计算时间都要2~3小时,甚至一整天的。我想能不能利用多台机器分布式计算,减少计算时间呢?当前分布式计算框架主要有hadoop, google的map/reduce,或一些其它的框架。但这些东东...
分类:
编程语言 时间:
2014-09-25 14:29:29
阅读次数:
381
一、 概念知识介绍
Hadoop MapReduce是一个用于处理海量数据的分布式计算框架。这个框架解决了诸如数据分布式存储、作业调度、容错、机器间通信等复杂问题,可以使没有并行 处理或者分布式计算经验的工程师,也能很轻松地写出结构简单的、应用于成百上千台机器处理大规模数据的并行分布式程序。
Hadoop MapReduce基于“分而治之”的思想,将计算任务...
分类:
其他好文 时间:
2014-05-10 04:39:09
阅读次数:
570
一、Hadoop概述
hadoop由两部分组成,分别是分布式文件系统和分布式计算框架MapReduce。其中,分布式文件系统主要用于大规模数据的分布式存储,而MapReduce 则构建在分布式文件系
统之上,对存储在分布式文件系统中的数据进行分布式计算。
2、在Hadoop 中,MapReduce 底层的分布式文件系统是独立模块,用户可按照约定的一套接口实现自己的分布式文件系统,然后经过简单...
分类:
其他好文 时间:
2014-05-01 18:34:41
阅读次数:
382