码迷,mamicode.com
首页 > 其他好文 > 详细

共享内存

时间:2015-09-02 00:42:40      阅读:237      评论:0      收藏:0      [点我收藏+]

标签:cuda并行计算   共享内存   加载存储模型   

       共享内存实际上是可受用户控制的一级内存。每个SM中的一级内存与共享内存共享一个64KB的内存段。在开普勒架构的设备中,根据应用程序的需要,每一个线程块可以配置为16KB的一级内存或共享内存;而在费米架构的设备中,可以根据喜好选择16KB48KB的一级内存或共享内存。早期的费米架构的硬件(计算能力为1.X)中只有固定的16KB共享内存而没有以及缓存。共享内存的延迟极低,大约有1.5TB/s的带宽,远远高于全局内存的190GB/s,但是它的速度只有寄存器的十分之一。

        在实际的情况中,低端显卡全局内存的速度只有高端显卡的十分之一,但是共享内存的速度几乎在所有(大约有20%不同)的GPU中都一致,因为共享内存的速度受核时频率驱动。因此,在任何显卡中,无论是否为高端显卡,除了使用寄存器,还是要更有效的使用共享内存。

实际上,仅仅看带宽数据,共享内存的带宽为1.5TB/s,全局内存的带宽最高为190GB/s,比率为7:1,换句话说,有效使用共享内存可能获得7倍的加速比。毫无疑问,共享内存是所有关心性能的cuda开发者应该掌握的一个概念。

       然而,GPU执行的是一种内存的加载/存储模型(load-store model),即所有的操作都要在指令寄存器载入后才可以执行;So,加载数据到共享内存与加载数据到寄存器中不同,只有当数据重复利用、全局内存合并,或线程之间有共享数据时才可以使用共享内存才更合适。否则,将数据直接从全局内存加载到寄存器性能才会更好。



共享内存

标签:cuda并行计算   共享内存   加载存储模型   

原文地址:http://blog.csdn.net/gggg_ggg/article/details/48162207

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!