一、实验目的与实验要求1、实验目的(1)学会将串行程序改为并行程序。(2)学会mpich2的使用。(3)学会openmp的配置。(4)mpi与openmp之间的比较。2、实验要求(1)将串行冒泡程序局部并行化,以降低时间消耗。(2) 理论上求出时间复杂度之比,根据结果得出时间消耗之比,进行比对分析。...
分类:
编程语言 时间:
2015-10-20 19:27:17
阅读次数:
206
什么样的程序运行效率高?程序的数据和指令都在cache中。没有cache miss出现。所以怎样让并行程序性能高基本能够演变成 怎样降低cache miss?尤其是多核下。并行程序cache的问题已经无法回避了,否则并行的效率还没有一个线程高。敲代码的时候MESI协议要时刻浮如今眼前。借用一句歌词:...
分类:
其他好文 时间:
2015-09-23 16:58:18
阅读次数:
144
一、简介 通过安装MPICH构建MPI编程环境,从而进行并行程序的开发。MPICH是MPI(Message-Passing Interface)的一个应用实现,支持最新的MPI-2接口标准,是用于并行运算的工具。 二、安装配置 http://www.cnblogs.com/liyanwei/arch...
分类:
其他好文 时间:
2015-08-29 00:36:22
阅读次数:
206
为了节省存储空间并且加快并行程序处理速度,需要对稀疏矩阵进行压缩存储,压缩存储的原则是:不重复存储相同元素;不存储零值元素。常用的几种矩阵的存储格式如下:COO,CSR,DIA,ELL,HYB等;稀疏矩阵是指矩阵中的元素大部分是0的矩阵,事实上,实际问题中大规模矩阵基本上都是稀疏矩阵,很多稀疏度在90%甚至99%以上。因此我们需要有高效的稀疏矩阵存储格式。本文总结几种典型的格式:COO,CSR,D...
分类:
其他好文 时间:
2015-08-12 01:19:36
阅读次数:
325
CUDA存储器模型:
GPU片内:register,shared memory;
host 内存: host memory, pinned memory.
板载显存:local memory,constant memory, texture memory, texture memory,global memory;
register: 访问延迟极低;
基本单元:register file (32bit/each)
计算能力1.0/1.1版...
分类:
其他好文 时间:
2015-06-25 17:29:44
阅读次数:
144
在进行图像处理过程中,我们经常会用到梯度迭代求解大型现在方程组;今天在对奇异矩阵进行求解的时候,出现了缺少dll的情况;
报错如下图:
缺少cusparse32_60.dll
缺失cublas32_60.dll
解决方案:
(1)将cusparse32_60.dll和cublas32_60.dll直接拷贝到C:\Windows目录,但这样在一直的时候,还会出现同样错误,为了避免麻烦,最好采用方法(2)
(2)将cusparse32_60.dll和cublas32_60.dll拷贝到你所在项目的文件目录...
分类:
其他好文 时间:
2015-06-23 20:04:31
阅读次数:
163
并行程序设计原理读书笔记 Peril-L Notation语法和语义简介,及部分实例。
分类:
其他好文 时间:
2015-05-30 21:08:07
阅读次数:
99
CUDA简介CUDA是并行计算的平台和类C编程模型,我们能很容易的实现并行算法,就像写C代码一样。只要配备的NVIDIA GPU,就可以在许多设备上运行你的并行程序,无论是台式机、笔记本抑或平板电脑。熟悉C语言可以帮助你尽快掌握CUDA。cuda编程CUDA编程允许你的程序执行在异构系统上,即CUP...
分类:
其他好文 时间:
2015-05-28 23:01:26
阅读次数:
170
并行程序设计原理读书笔记:基本的知识点;目的:并行计算入门。
分类:
其他好文 时间:
2015-05-24 17:08:53
阅读次数:
94
为什么使用akka
akka是Actor模型的实现。Actors为我们提供了以下优点:
1)对并发/并行程序的简单的、高级别的抽象。
2)异步、非阻塞、高性能的事件驱动编程模型。
3)非常轻量的事件驱动处理。
akka提供了容错性
使用“let-it-crash”语义和监管者树形结构来实现容错。非常适合编写永不停机、自愈合的高容错系统。监管者树形结构可以跨...
分类:
其他好文 时间:
2015-05-17 21:57:09
阅读次数:
163