码迷,mamicode.com
首页 > 其他好文 > 详细

60 cuda全局性能优化

时间:2019-04-10 13:30:22      阅读:141      评论:0      收藏:0      [点我收藏+]

标签:部分   空间   线程   profile   因此   min   基本   产生   uda   

0 引言

cuda线程模型涉及grid的块划分和线程配置,直接影响到全局运算速度。根据文档《CUDA_C_Programming_Guide》,性能优化有三个方面的基本策略。

(1)最大化并行执行以实现最大的利用率.

(2)优化内存使用,以实现最大的内存吞吐量.

(3)优化指令使用,以实现最大的指令吞吐量.

对于应用程序的特定部分,哪些策略将产生最佳性能收益取决于该部分的性能受哪方面的限制;例如,优化主要受内存访问限制的内核的指令使用不会产生任何显著的性能提升。因此,应该不断地通过测量和监视性能限制器(例如使用CUDA profiler)来指导优化工作。此外,将特定内核的浮点操作吞吐量或内存吞吐量(无论哪个更有意义)与设备的相应峰值理论吞吐量进行比较,可以看出内核有多大的改进空间。

 

60 cuda全局性能优化

标签:部分   空间   线程   profile   因此   min   基本   产生   uda   

原文地址:https://www.cnblogs.com/ghjnwk/p/10682751.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!