码迷,mamicode.com
首页 > 其他好文 > 详细

快速内存拷贝

时间:2018-08-31 00:31:45      阅读:943      评论:0      收藏:0      [点我收藏+]

标签:1.3   内存   asm   div   nbsp   其他   register   xmm0   不为   

    C语言自带memcpy已优化的很好了,通过拷贝一幅图像,测得耗时为1.8ms,经过很多其他方法代换,都无法达到如此速度,为了提速,经过摸索,终于找到更快一点的方法。经测得耗时为1.35ms。

内存拷贝程序

void MemCopy(void *pDst, void *pSrc, DWORD dwSize)//顺序拷贝
{
	_asm
	{
		    mov esi, pSrc;  //传递源指针
		    mov edi, pDst;  //传递目标指针
		    mov ebx, dwSize;//ebx 字节计数
		    shr ebx, 7;     //除 128 (8 * 128bit registers)
	  L1:
		    movdqu xmm0, 0[ESI]; //从内存移动数据到寄存器
		    movdqu xmm1, 16[ESI];
		    movdqu xmm2, 32[ESI];
		    movdqu xmm3, 48[ESI];
		    movdqu xmm4, 64[ESI];
		    movdqu xmm5, 80[ESI];
		    movdqu xmm6, 96[ESI];
		    movdqu xmm7, 112[ESI];

		    movntdq 0[EDI], xmm0; //从寄存器移动数据到内存
		    movntdq 16[EDI], xmm1;
		    movntdq 32[EDI], xmm2;
		    movntdq 48[EDI], xmm3;
		    movntdq 64[EDI], xmm4;
		    movntdq 80[EDI], xmm5;
		    movntdq 96[EDI], xmm6;
		    movntdq 112[EDI], xmm7;

		    add esi, 128;
		    add edi, 128;
		    dec ebx; //减1
		    jnz L1;  //不为0循环

	  	    mov ecx, dwSize;
		    and ecx, 127;
		    rep movsb; //余数循环
	}
}

用完了8个多媒体寄存器,每个寄存器每次传输16个字节,用到了内存拷贝极限。

在vs2017的C++调试通过。

快速内存拷贝

标签:1.3   内存   asm   div   nbsp   其他   register   xmm0   不为   

原文地址:https://www.cnblogs.com/hbg200/p/9563283.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!