? OpenACC 的原子操作,用到了 C++ 的一个高精度计时器 ● 代码,直接的原子操作 ● 输出结果,不知道为什么,win10中的 pgCC 不能用 ● 输出结果,WSL 中 ● 优化一下,使用分段计数 ● 输出结果,好像好一点点 ...
分类:
其他好文 时间:
2018-08-11 11:36:52
阅读次数:
184
? 按照书上的代码完成了 OpenACC 与CUDA 的相互调用,以及 OpenACC 调用 cuBLAS,但是有点问题,先放在这里 ● 代码,在 OpenACC 调用 CUDA ● 输出结果,代码在 win10上不能链接,报错:LINK : fatal error LNK1104: 无法打开文件“ ...
分类:
其他好文 时间:
2018-08-09 00:28:57
阅读次数:
124
? 书上的代码,逐步优化绘制 Julia 图形的代码 ● 无并行优化(手动优化了变量等) ● 输出结果(后面所有代码的输出都相同,不再写了) ● 改进 1,计算并行化 ● 输出结果 ● 改进 2,分块计算,没有明显性能提升,为异步做准备 ● 输出结果 ● 改进 3,分块传输,没有明显性能提升,为异步 ...
分类:
其他好文 时间:
2018-08-08 23:41:45
阅读次数:
320
? 使用 routine 构件创建的自定义函数,在并行调用上的差别 ● 代码,自定义一个 sqab 函数,使用内建函数 fabsf 和 sqrtf 计算一个矩阵所有元素绝对值的平方根 ● 输出结果,第 28 行不添加并行级别子句(默认使用 gang) ● 输出结果,第 28 行添加并行级别子句 wo ...
分类:
其他好文 时间:
2018-08-04 20:18:42
阅读次数:
171
? 书上的计算圆周率的简单程序,主要是使用了自定义函数 ● 输出结果 ...
分类:
其他好文 时间:
2018-08-04 20:18:02
阅读次数:
298
? 使用Jacobi 迭代求泊松方程的数值解 ● 使用 data 构件,强行要求 u0 仅拷入和拷出 GPU 各一次,u1 仅拷入GPU 一次 ● 输出结果,在 Windows 里运行结果如下,在 WSL 里运行时间为 959 ms ● 在 Nvvp 中的结果,非常清晰了 ● 将 tempp 放到了 ...
分类:
其他好文 时间:
2018-08-04 00:58:50
阅读次数:
255
? 简单的直方图,强调原子操作的使用 ● 代码 ● 输出结果,在 Windows 里是错的,在 WSL 里是对的 ● 更新!!!把代码改了一下,在 Windos 下也正确了,还是简单语句的问题 ...
分类:
其他好文 时间:
2018-08-03 22:36:15
阅读次数:
228
? 使用Jacobi 迭代求泊松方程的数值解 ● 首次使用 OpenACC 进行加速,使用动态数组,去掉了误差控制 ● 运行结果,在 WSL 上跑时间为 797 ms。使用了环境变量 PGI_ACC_TIME=1,输出运行时间情况 ● 中间曾出现报错 “PGC-S-0155-Cannot deter ...
分类:
其他好文 时间:
2018-08-03 21:17:34
阅读次数:
217
? 在 windows 10 上搭建 OpenACC 环境,挺麻烦 ● 安装顺序:Visual Studio 2015(PGI 编译器不支持 Visual Studio 2017);CUDA Toolkite 9.1(https://developer.nvidia.com/cuda-downloa ...
下载OpenAcc社区版 1,目前为止的最新版,平台是Linux,选择Linux x86-64. 我的服务器系统是CentOs 下载地址链接:https://www.pgroup.com/products/community.htm 2,下载完成后 root模式下新建文件夹openacctempdi ...
分类:
系统相关 时间:
2018-04-06 20:22:12
阅读次数:
258