本文原载于我的主页:planckscale.info,转载于此。
版权声明:原创作品,欢迎转载,但转载请以超链接形式注明文章来源(planckscale.info)、作者信息和本声明,否则将追究法律责任。
上一篇中谈到了编程模型中的Block等概念如何映射到硬件上执行,以及CUDA如何用并行来掩盖延迟。这一篇继续剖析SIMT,谈一谈控制流分叉,指令吞吐和线程间通讯机制。
虽然...
分类:
其他好文 时间:
2015-01-23 23:10:44
阅读次数:
480
CUDA程序优化应该考虑的点:精度:只在关键步骤使用双精度,其他部分仍然使用单精度浮点以获得指令吞吐量和精度的平衡; 目前GPU的单精度性能要远远超过双精度性能,整数乘法、求模、求余等运算的指令吞吐量也较为有限。在科学计算中,由于需要处理的数据量巨大,往往采用双精度或者四精度才能获得可靠的结果,目....
分类:
其他好文 时间:
2014-08-17 22:46:23
阅读次数:
482