共享内存实际上是可受用户控制的一级内存。每个SM中的一级内存与共享内存共享一个64KB的内存段。在开普勒架构的设备中,根据应用程序的需要,每一个线程块可以配置为16KB的一级内存或共享内存;而在费米架构的设备中,可以根据喜好选择16KB或48KB的一级内存或共享内存。早期的费米架构的硬件(计算能力为1.X)中只有固定的16KB共享内存而没有以及缓存。共享内存的延迟极低,大约有1.5TB/s的带宽,远远高于全局内存的190GB/s,但是它的速度只有寄存器的十分之一。
在实际的情况中,低端显卡全局内存的速度只有高端显卡的十分之一,但是共享内存的速度几乎在所有(大约有20%不同)的GPU中都一致,因为共享内存的速度受核时频率驱动。因此,在任何显卡中,无论是否为高端显卡,除了使用寄存器,还是要更有效的使用共享内存。
实际上,仅仅看带宽数据,共享内存的带宽为1.5TB/s,全局内存的带宽最高为190GB/s,比率为7:1,换句话说,有效使用共享内存可能获得7倍的加速比。毫无疑问,共享内存是所有关心性能的cuda开发者应该掌握的一个概念。
然而,GPU执行的是一种内存的加载/存储模型(load-store model),即所有的操作都要在指令寄存器载入后才可以执行;So,加载数据到共享内存与加载数据到寄存器中不同,只有当数据重复利用、全局内存合并,或线程之间有共享数据时才可以使用共享内存才更合适。否则,将数据直接从全局内存加载到寄存器性能才会更好。
原文地址:http://blog.csdn.net/gggg_ggg/article/details/48162207