深入理解计算机系统之程序的机器级表示部分学习笔记

时间：2017-03-18 22:41:21 阅读：279 评论：0 收藏：0 [点我收藏+]

不论我们是在用C语言还是用JAVA或是其他的语言编程时，我们会被屏蔽了程序的机器级的实现。机器语言不需要被编译，可以直接被CPU执行，其执行速度十分快。但是机器语言的读写性与移植性较高级语言低。高级语言被编译后便成为了汇编语言，汇编语言十分接近机器语言。之后汇编代码会转化为机器语言。虽然现代的编译器能帮助我们将高级语言转化为汇编语言，解决了不少问题，但是对于一个严谨的程序员来说，需要做到能够阅读和理解汇编语言。我们主要围绕Intel来讲解。

一 Intel处理器的历史演变

Intel处理器最的早是8086，它是十六位的微处理器，作为第一代单芯片，8086知名度是相当的高。之后又有80286、i386、i486、Pentium、PentiumPro、 Pentium/MMX、PentiumⅡ、PentiumIII等等的一系列处理器出现了。每个时间上相继的处理器都是向后兼容的。Intel称其指令集为IA32，也就是Intel32位体系结构，也就是我们平常所说的x86。

二程序编码

我们写一个C程序，用Unix命令行编译p1.c和p2.c两个文件。即为

unix> gcc -02 -o p p1.c p2.c

其中-02 告诉编译器使用第二级优化。而二级优化则是在性能优化与使用方便之间一个最好的权衡。所以代码经常使用二级优化。

(1)机器级代码

一些通常对C程序进行屏蔽的处理器：

程序计数器(%eip)、整数寄存器、条件码寄存器、浮点寄存器

(2)代码示例

int accum = 0;

int sum(int x, int y)
{
     int t = x+y;
     accum+=t;
     return t;
}

　在命令行上使用 “-S”选项，

unix〉gcc -02 -S code.c

　就能看到编译器产生的汇编代码：

sum:
       pushl %ebp
       movl %esp , %ebp
       movl 12(%ebp) , %eax
       addl 8(%ebp) , %eax
       addl %eax , accum
       movl %ebp , %esp
       popl %ebp
       ret

　如果对code.c 使用“-c”选项则会产生一个二进制的文件code.o

unix〉gcc -02 -c code.c

　code.o里面的是汇编指令的目标代码。

当然我们可以使用反汇编器来将目标代码转化为汇编代码：

unix〉objdump -d code.o

三数据格式

技术分享

四访问信息

技术分享

这是IA32中央处理器所包含的一组八个存储单元的32位存储器。前六个是通用寄存器，对它们的使用没有限制。前三个寄存器(%eax,%ecx,%edx)的保存和恢复惯例不同于接下来的三个寄存器(%ebx,%esi,%edi)。最后两个寄存器保存着指向程序栈重要位置的指针，称为栈指针和帧指针。数据存放在寄存器中进行加减乘除等一些操作。原来的寄存器是16位的所以如图所示蓝色部分是0-15，之后寄存器进行了扩充，变成了32位的即0-31。

(1) 操作数指示符

操作数被分成三种类型：立即数、寄存器、存储器引用。我们来看看一些不同的寻址模式

技术分享

(2) 数据传输指令

我们来看看一些常见的汇编程序的数据传送指令

技术分享

movb、movsbl和movzbl之间的差别如下：

假设 %dh =8D,%eax=98765432

 movb %dh ,%a1           %eax=9876548D
 movsbl %dh , %eax      %eax=FFFFFF8D
 movzbl %dh,%eax         %eax=0000008D

在以上的例子中都是将寄存器%eax 的低位字节设置为%edx 的第二个字节。movb指令不改变其他三个字节。根据原字节的最高为，movsbl指令将其他三个字节设为全1或全0。movzbl指令无论如何都是将其他三个字节设为全0。

pushl 与popl是用来将数据压入栈中和从栈中弹出数据的。它们两个的指令都只有一个操作数，即它们所要压入或者弹出的数据。将一个双字值压入栈中，首先要将栈指针减4，然后将值写入到新的栈顶地址。弹出一个双字的操作是从栈顶位置读出数据，然后将栈指针加4。

五算术与逻辑操作

我们来看看一些双字整数的操作

技术分享

如图所示共有四种不同的操作：leal 、一元操作、二元操作、位移操作

(1) 加载有效地址

加载有效地址指令leal实际上是movl指令的变形。它的指令形式是从存储器读数据到寄存器，但实际上它根本就没有引用存储器。

(2)一元操作和二元操作

一元操作即只有一个操作数，二元操作即是有两个操作数。

(3)位移操作

位移操作，先给出位移量，然后是待移位的值。可以进行算术和逻辑右移。

六控制

对于C和汇编代码中的语句，默认的是按照语句或指令在程序中出现的顺序来执行的。

(1)条件码

CPU包含了一组单个位的条件码寄存器，它们描述了最近的算术或逻辑操作的属性。常见的条件码为：进位标志(CF)、零标志(ZF)、符号标志(SF)、溢出标志(OF)

(2)访问条件码

两种最常用的访问的条件码的方法不是直接读取它们，而是根据条件码的某个组合，设置一个整数寄存器或是执行一条分支指令。每个指令根据条件码的某个组合，将一个字节设置为0或者1。同一个机器指令可以有不同的名字。

(3)跳转指令

跳转指令会导致执行切换到程序中的一个全新的位置。这些跳转的目的地通常用一个标号指明。jmp指令是无条件跳转的，可以直接跳转也可以间接跳转。

(4)循环

do-while、while、 for

(5)switch语句

switch语句提供了根据一个整数索引值进行多重分支的能力。在处理具有多种可能结果的测试时，特别有用。它通过使用跳转表使代码更加高效。

七过程

一个过程调用包括将数据（以过程参数和返回值的形式）和控制从代码的一部分传递到另一部分。另外，它还必须在进入时为过程的局部变量分配空间，并在退出时释放这些空间。

(1)栈帧结构

栈帧结构指的是为单个过程分配的那部分栈。栈帧的最顶端是以两个指针定界的，寄存器%ebp作为帧指针，寄存器%esp作为栈指针。栈指针是可以移动的，所以大多数信息的访问都是相对于帧指针的。

(2)转移控制

call :过程调用

leave:为返回准备栈

ret:从过程调用中返回

(3)递归过程

技术分享

深入理解计算机系统之程序的机器级表示部分学习笔记

标签：指令浮点 bsp 间接方便告诉程序栈兼容溢出

原文地址：http://www.cnblogs.com/xxp17457741/p/6568230.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行