标签:1.3 内存 asm div nbsp 其他 register xmm0 不为
C语言自带memcpy已优化的很好了,通过拷贝一幅图像,测得耗时为1.8ms,经过很多其他方法代换,都无法达到如此速度,为了提速,经过摸索,终于找到更快一点的方法。经测得耗时为1.35ms。
内存拷贝程序
void MemCopy(void *pDst, void *pSrc, DWORD dwSize)//顺序拷贝 { _asm { mov esi, pSrc; //传递源指针 mov edi, pDst; //传递目标指针 mov ebx, dwSize;//ebx 字节计数 shr ebx, 7; //除 128 (8 * 128bit registers) L1: movdqu xmm0, 0[ESI]; //从内存移动数据到寄存器 movdqu xmm1, 16[ESI]; movdqu xmm2, 32[ESI]; movdqu xmm3, 48[ESI]; movdqu xmm4, 64[ESI]; movdqu xmm5, 80[ESI]; movdqu xmm6, 96[ESI]; movdqu xmm7, 112[ESI]; movntdq 0[EDI], xmm0; //从寄存器移动数据到内存 movntdq 16[EDI], xmm1; movntdq 32[EDI], xmm2; movntdq 48[EDI], xmm3; movntdq 64[EDI], xmm4; movntdq 80[EDI], xmm5; movntdq 96[EDI], xmm6; movntdq 112[EDI], xmm7; add esi, 128; add edi, 128; dec ebx; //减1 jnz L1; //不为0循环 mov ecx, dwSize; and ecx, 127; rep movsb; //余数循环 } }
用完了8个多媒体寄存器,每个寄存器每次传输16个字节,用到了内存拷贝极限。
在vs2017的C++调试通过。
标签:1.3 内存 asm div nbsp 其他 register xmm0 不为
原文地址:https://www.cnblogs.com/hbg200/p/9563283.html