"数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。下面就进入这个实例的MapReduce程序设计。1.1 实例描述 对数据文件中的数据进行去重。数据文件中的每行都是一个数据。 样例输入如下.....
分类:
其他好文 时间:
2014-06-16 13:22:07
阅读次数:
309
图的并行化处理一直是一个非常热门的话题,这里头的重点有两个,一是如何将图的算法并行化,二是找到一个合适的并行化处理框架。Spark作为一个非常优秀的并行处理框架,将一些并行化的算法移到其上面就成了一个很自然的事情。Graphx是一些常见图算法在Spark上的并行化实现,同时提供了丰富的API接口。本...
分类:
其他好文 时间:
2014-06-12 21:33:34
阅读次数:
427
为了无阻塞地实现并发通信及处理,设计了一种流水线线程池模式。流水线结构保证了各个客户工作在大粒度上并行化,线程池技术保证了处理器资源的最大利用,可以显著提高系统的吞吐能力。另一个附加好处,是可以让VIP获得高级优先级。...
分类:
其他好文 时间:
2014-05-22 10:14:58
阅读次数:
356
在需要并行化处理数据的时候,采用消息队列通讯的方式来协作,比采用共享状态的方式要好的多。Erlang ,Go
都使用这一手段来让并行任务之间协同工作。最近读完了ZeroMQ的Guide。写的很不错。前几年一直有做类似的工作,但是自己总结的不好。而 ZeroMQ
把消息通讯方面的模式总结的很不错。Ze...
分类:
其他好文 时间:
2014-05-14 09:48:48
阅读次数:
256
Hadoop集群(第9期)_MapReduce初级案例1、数据去重
"数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。下面就进入这个实例的MapReduce程序设计。1.1
实例描述 对数.....
分类:
其他好文 时间:
2014-05-11 16:02:24
阅读次数:
538
Hadoop集群(第9期)_MapReduce初级案例 - 虾皮 - 博客园1、数据去重
"数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。下面就进入这个实例的MapReduce程序设计。1....
分类:
其他好文 时间:
2014-05-08 20:38:16
阅读次数:
669
关于 Ubuntu12.04 下 CUDA5.5 的安装请参看如下链接
Ubuntu-12.04 安装 CUDA-5.5
关于 Ubuntu12.04 下 CUDA5.5 程序的运行请参看如下链接
Ubuntu12.04 之 CUDA 编程 (一) ~~~ GPU 运行程序
1、程序的并行化
前一篇文章讲到了如何利用 CUDA5.5 在 GPU 中运行一个程序。通过程序的...
分类:
其他好文 时间:
2014-05-08 00:01:38
阅读次数:
484