Disco是一个轻量级的、开源的基于mapreduce模型计算的框架,Disco强大且易于使用,这都要归功于python,Disco分发且复制数据,可高效安排作业。Disco甚至拥有能对数以亿计的数据点进行索引以及实时查询的工具。Disco于2008年在Nokia研究中心诞生,解决了在大量数据处理方面的挑战。Disco支持大数据集的并行计算,在不可靠的计算机集群中,Disco是一个完美的分析和处理...
分类:
其他好文 时间:
2014-12-02 22:32:39
阅读次数:
206
1 BSP批量同步并行计算BSP(Bulk Synchronous Parallel)批量同步并行计算用来解决并发编程难的问题。名字听起来有点矛盾,又是同步又是并行的。因为计算被分组成一个个超步(super-step),超步内并行计算并且结点间不能通信。在超步之间设置同步栅栏(barrier synchronization),计算完成后相互通信,全部完成后才能继续下一个超步。2 SEDA阶段...
分类:
其他好文 时间:
2014-11-30 23:26:28
阅读次数:
402
将数据加载到GPU后,如何在grid下的block进行并行计算(一个grid包含多个block)/****How do we run code in parallel on the device****/ /****Use block****/ _global_ void add(int...
分类:
其他好文 时间:
2014-11-29 11:44:48
阅读次数:
156
1背景介绍现今分布式计算框架像MapReduce和Dryad都提供了高层次的原语,使用户不用操心任务分发和错误容忍,非常容易地编写出并行计算程序。然而这些框架都缺乏对分布式内存的抽象和支持,使其在某些应用场景下不够高效和强大。RDD(Resilient Distributed Datasets弹性分布式数据集)模型的产生动机主要来源于两种主流的应用场景:Ø 迭代式算法:迭代式机器学习、图算法,包...
分类:
其他好文 时间:
2014-11-22 16:08:17
阅读次数:
392
CUDA从入门到精通(零):写在前面
在老板的要求下,本博主从2012年上高性能计算课程开始接触CUDA编程,随后将该技术应用到了实际项目中,使处理程序加速超过1K,可见基于图形显示器的并行计算对于追求速度的应用来说无疑是一个理想的选择。还有不到一年毕业,怕是毕业后这些技术也就随毕业而去,准备这个暑假开辟一个CUDA专栏,从入门到精通,步步为营,顺便分享设计的一些经验教训,希望能...
分类:
其他好文 时间:
2014-11-21 21:54:34
阅读次数:
39965
如果有几个Uri,需要获取这些Uri的所有内容的长度之和,你会如何做?很简单,使用WebClient一个一个的获取uri的内容长度,进行累加。也就是说如果有5个Uri,请求的时间分别是:1s 2s 3s 4s 5s.那么需要的时间是:1+2+3+4+5=(6*5)/2=15.如果采用并行计算的话,结...
分类:
其他好文 时间:
2014-11-20 20:05:02
阅读次数:
244
声明:本文基于spark的programming guide,并融合自己的相关理解整理而成
Spark应用程序总是包含着一个driver program(驱动程序),它执行着用户的main方法,并且执行大量的并行操作(parallel operations)在集群上.
概述
Spark最主要的抽象就是RDD(resilient di...
分类:
其他好文 时间:
2014-11-18 14:51:18
阅读次数:
176
一、Storm中运行的组件
我们知道,Storm的强大之处就是可以很容易地在集群中横向拓展它的计算能力,它会把整个运算过程分割成多个独立的tasks在集群中进行并行计算。在Storm中,一个task就是运行在集群中的一个Spout或Bolt实例。
为了方便理解Storm如何并行处理我们分给它的任务,这里我先介绍一下在集群中涉及到Topology的四种组件:
...
分类:
其他好文 时间:
2014-11-13 16:35:06
阅读次数:
266
http://www.nowamagic.net/librarys/veda/detail/1768上一篇大规模分布式数据处理平台Hadoop的介绍中提到了Google的分布式计算模型Map Reduce,这里再单独拿出来了解一下。并行计算简介计算机的早期阶段,程序都是serial(连续的),类似于...
分类:
其他好文 时间:
2014-11-09 11:07:45
阅读次数:
227
假设你有上百G的数据,你要统计出这些数据中,含有某些你感兴趣的内容的数据的有多少条,你会怎么做?在硬件条件允许的情况下,用hadoop并行计算是一个不错的选择。为了使本文得以清晰地说明,我们不妨假设如下的情况:我们有100G的数据,分别保存在5个文件中,它们位于 /data/ 目录下。这5个数据文件...
分类:
编程语言 时间:
2014-11-07 22:04:33
阅读次数:
287