标签:
1、总喜欢在core 代码中,访问device memory。 然后排错很久!!!!!
2、第一次cudaMalloc() 耗时很久
3、cudaMalloc对于大数据也耗时很久
4、一致内存使用错误,不知道为什么!!!!!
5. Block中的thread个数最多1024个,但block数量随意。
6.还没有尝试多维thread 和 block。
标签:
原文地址:http://www.cnblogs.com/xingzifei/p/4899416.html