CUDA 程序运行时CPU 100%的问题有点让人头痛,在实验过程中调用了kernel函数后,再调用cudaMemcpyAsync,但发现在还有会到block在这个所谓的async api,strace 跟了一下,发现99.999%都是
clock_gettime(CLOCK_MONOTONIC_RAW, {2461, 485666623}) = 0
于是实然有了一个灵感,为什么我不写一个和它相似的poll函数,只不过我是每隔1分钟轮询一次,这样就可以把CPU的使用率降下来了
kernel<<< dimGrid, dimBlock >>>(d_result_next_idx); _err = cudaGetLastError(); if(cudaSuccess == _err) { low_cpu_usage_poll(qihao);
void low_cpu_usage_poll(int qihao) { int min = 0; bool ready = false; while (1) { sleep(60); // second ready = cudaSuccess==cudaStreamQuery(0); printf("low_cpu_usage_poll: %4d min, cudaStreamQuery: %s\n", ++min, ready ? "cudaSuccess" : "cudaErrorNotReady???"); if (ready) { callback(qihao); return; } } }
使用时在调用了kernel函数后,不再调用任何cudaXXXX函数,kernel函数是异步的,但随后的这些cudaXXXX函数还是会block直到kernel完成,所在应该在调用kernel后直接调用low_cpu_usage_poll,把所有后续处理放在low_cpu_usage_poll中调用的那个callback中。
原文地址:http://blog.csdn.net/joshua2011/article/details/42645081