并行化scala集合(Parallelize)//加载数据1~10val num=sc.parallelize(1 to 10)//每个数据项乘以2,注意 _*2记为一个函数(fun) val doublenum = num.map(_*2) //内存缓存数据doublenum.cache() //...
分类:
其他好文 时间:
2014-10-02 22:54:43
阅读次数:
266
Storm里面引入DRPC主要是利用storm的实时计算能力来并行化CPUintensive的计算。DRPC的stormtopology以函数的参数流作为输入,而把这些函数调用的返回值作为topology的输出流。DRPC其实不能算是storm本身的一个特性,它是通过组合storm的原语spout,...
分类:
其他好文 时间:
2014-10-01 17:02:51
阅读次数:
360
如果文件是数千兆字节,或者数百万兆字节,将需要并行化这一文件的备份,通常,一个通道只能读一个文件,但是用多段关键字可以改变这一行为:
run {
allocate channel t1 type sbt;
allocate channel t2 type sbt;
allocate channel t3 type sbt;
allocate channel t4 type sbt;...
分类:
数据库 时间:
2014-09-21 11:25:30
阅读次数:
228
最近开始研究Python的并行开发技术,包括多线程,多进程,协程等。逐步整理了网上的一些资料,今天整理一下greenlet相关的资料。
并发处理的技术背景
并行化处理目前很受重视, 因为在很多时候,并行计算能大大的提高系统吞吐量,尤其在现在多核多处理器的时代,
所以像lisp这种古老的语言又被人们重新拿了起来, 函数式编程也越来越流行。 介绍一个python的并行处理的一个库...
分类:
编程语言 时间:
2014-09-18 11:30:03
阅读次数:
212
FP-Growth是一种常被用来进行关联分析,挖掘频繁项的算法。与Aprior算法相比,FP-Growth算法采用前缀树的形式来表征数据,减少了扫描事务数据库的次数,通过递归地生成条件FP-tree来挖掘频繁项。参考资料[1]详细分析了这一过程。事实上,面对大数据量时,FP-Growth算法生成.....
分类:
其他好文 时间:
2014-09-13 15:46:05
阅读次数:
406
线程工厂
在调用构造函数后再定制ThreadPoolExecutor
扩展ThreadPoolExecutor
递归算法的并行化...
分类:
编程语言 时间:
2014-09-07 22:30:15
阅读次数:
328
原文:C#并行编程-PLINQ:声明式数据并行背景
通过LINQ可以方便的查询并处理不同的数据源,使用Parallel LINQ (PLINQ)来充分获得并行化所带来的优势。
PLINQ不仅实现了完整的LINQ操作符,而且还添加了一些用于执行并行的操作符,与对应的LINQ相比,通过PLINQ可以获得...
分类:
其他好文 时间:
2014-09-06 12:23:43
阅读次数:
203
来自论文Rex: Replication at the Speed of Multi-core
对一系列请求的串行执行已经跟不上多核服务器的脚步了,但又不能直接并行化,因为并行会带来线程调度和锁竞争的不确定性,这就使得状态机复制的前提得不到满足,即要保持确定性。有一点要注意:全序的请求序列并不是保证一致性的必须,也就是说我们完全可以在并行化和一致性之间建立起双赢。本文旨在研究如何在多核机器...
分类:
其他好文 时间:
2014-09-05 22:26:52
阅读次数:
319
背景通过LINQ可以方便的查询并处理不同的数据源,使用Parallel LINQ (PLINQ)来充分获得并行化所带来的优势。PLINQ不仅实现了完整的LINQ操作符,而且还添加了一些用于执行并行的操作符,与对应的LINQ相比,通过PLINQ可以获得明显的加速,但是具体的加速效果还要取决于具体的场景...
分类:
其他好文 时间:
2014-09-03 12:42:26
阅读次数:
411
Spark GraphX宝刀出鞘,图文并茂研习图计算秘笈 ????? 大数据的概念与应用,正随着智能手机、平板电脑的快速流行而日渐普及,大数据中图的并行化处理一直是一个非常热门的话题。图计算正在被广泛地应用于社交...
分类:
其他好文 时间:
2014-08-29 18:37:08
阅读次数:
270