计算机体系架构

时间：2016-12-03 20:36:48 阅读：205 评论：0 收藏：0 [点我收藏+]

标签：预测相对存在测试程序并行处理 src 阶段 lan 9.png

两种架构：

体系结构：是指指令集体系结构。

微体系结构：是指体系结构的具体逻辑实现，不同的微体系结构有不同的流水线设计，不同的分支预测技术。

微体系结构的多样性使得同一种体系结构能够不断的推陈出新，提高微处理器的性能，同时保证代码的兼容性。

预定义的指令集也叫做指令集体系结构(ISA，Instruction Set Architecture)。

ISA是软件与硬件之间的接口，程序与处理器之间的接口。

ISA是设计的规范，微处理器是设计的实现。

指令集体系结构(ISA)作为软件与硬件，程序与处理器之间的一种约定，起着十分重要的作用。使得程序与机器之间可以独立的发展。

ISA通常要定义一套汇编指令，每一条指令都指定一种操作类型和多个操作数，早期的ISA将操作数放在一个栈结构中，在栈顶操作。

现代多数的ISA将操作数放在多端口的寄存器文件中。

相较于微体系结构，ISA架构为了匹配编译器和操作系统，一般不会有太大改变。微体系结构每3-5年就会有较大的发展。

高端微处理器设计的步骤：

1)：微体系结构设计，为获得预期的性能而对关键技术进行的研究和确定，通常用一个性能模型来进行评估。规定处理器的功能性行为。

性能模型，在时钟周期的颗粒度上，模拟处理器的行为，计算执行一个测试程序(benchmark)所需要的时钟周期数目。

2)：逻辑设计，通过RTL的verilog代码描述，设计实现内部主要的模块以及模块之间的互联。

ISA中还有一个内在的接口定义，区别哪些是编译时静态完成的，哪些是运行时动态完成的程序。

技术分享

所有在编译时由软件和编译器静态完成的任务和优化，被认为是DSI之上的。

所有在运行时，由硬件动态完成的任务和优化，被认为是DSI之下的。

处于DSI之上的软件和DSI之下的硬件是相互独立的。

处理器的性能法则：

处理器性能是依据执行一段特殊代码所需要的时间来衡量的，可以分为三大类：

1)：程序需要的指令数；

2)：每条指令的时钟数(Cycles Per Instruction)

3)：每个时钟周期需要的时间；

处理器的性能优化：

1)：编译器优化，减少不必要的冗余代码，从而减少指令数；

2)：使用更为先进的工艺，减少信号传输延时，减小机器时钟周期；

3)：增加复杂指令，来减少指令数，但是增加执行部件复杂性，增加指令的时钟数；

4)：深度流水线来减小每条指令的时钟数(CPI)，但是分支预测出错会使得CPI变大；

目前主要的提升性能的方式还是减小CPI，两种方法：

1)：使用RISC，但是指令数目增加；

2)：增加指令流水；

指令级并行处理(ILP)：

指令级并行可以定义为多条指令的并行执行，

传统的串行处理器每次只执行一条指令。

流水线处理器可以重叠执行多条指令，实现指令级并行。

传统的CISC处理器每处理一条指令，需要10个机器周期，CPI=10

流水线处理器(RISC)，通过多条指令的重叠执行，将平均CPI降低到接近1。

标量流水线处理器，在每个周期最多只能发射一条指令。吞吐量在最好状态，CPI等于1。

超标量流水线处理器，每个周期可以进行多条指令的发射，CPI可以小于1。

标量处理器是一种最简单的计算机处理器类型，在同一时间内只处理一条数据，标量处理器是一种单指令单数据流(SISD)处理器。

分为复杂指令集CISC(Complex Instruction Set Computing)，对编译器设计要求不高，但是芯片设计复杂，耗电量大。(X86)

精简指令集RISC(Reduced Instruction Set Computing)，需要强大的编译器使得多个部件并行执行，采用流水线pipeline，

指令乱序out-oder instruction来发挥CPU性能。(包括MIPS/PowerPC/ARM)

向量处理器，也称为阵列处理器，在科学计算领域应用广泛。多数商业CPU都包括一些向量处理器指令，如SIMD。

向量处理器早于ILP处理器而商业化，采用一种不同的策略来控制多个深度流水的功能部件，典型的向量操作是两个64位浮点数据相加得到新的64位的元素向量。

每条向量指令等同于一个循环，可以执行上百次操作，向量间的各个元素计算相互独立。

标量并行处理器的性能建模：(每个计算中，只有一个处理器处于使用状态)，(由向量处理器和标量处理器组成)

技术分享

Amdahl定律的效率公式：E = 1-h+h/N，N是机器中处理器的数量，h为进行标量运算的时间片。当h从100%稍微下降一点时，流水线处理器的性能下降的很厉害。

并行处理器的性能模型可以用于流水线处理器，机器并行度N代表流水线的深度，执行过程分为流水线填充阶段，完全流水阶段，流水线排空阶段。

技术分享

假设流水线一旦停顿，流水线中只存在一条指令，相当于流水线暂停N个时钟，模型可以简化为：

技术分享

其中gi表示流水线中有i条指令的时间片，即流水线停顿(N-i)个周期的时间片。

指令级并行相对于其他的程序段和计算任务的同时处理，称为”细粒度并行”，为开发ILP设计的处理器称为ILP处理器。

ILP处理器可以根据一些列参数进行分类：

1)：操作延时(OL)，指令执行需要的机器时钟周期数。

2)：机器并行度(MP)，能够同时在流水线中运行的最大指令数。

3)：发射延迟(IL)，一条新的指令初始化后进入流水线。

4)：发射并行度(IP)，每个时钟周期内可以发射的最大指令数。

对于4级流水的基准的标量流水线处理器，相对于标量的非流水处理器，流水线处理器获得了更高的吞吐率。

技术分享

超流水处理器比基准处理器有着更高的流水度，在超流水处理器中，处理器的时钟周期比基准处理器短，并定义为“次时钟周期“，

一个基准处理器的时钟周期中有m个次时钟周期。

技术分享

超流水处理器发射指令的速度比执行的速度要快，每个次时钟都会发射指令，但是一条指令的执行可能需要m个次时钟。

从技术上来看，如果传统流水线处理器需要多个时钟来执行简单指令，那应当归类为超流水处理器。

超流水处理器可以被看作m*k段的深度流水线处理器，某条指令的结果不能被后续的m-1条指令利用。

超标量处理器是基准标量流水线处理器的扩展，IP=n条指令/时钟周期，流水线深度n*k，具有相同深度的超流水处理器和超标量处理器具有同样的并行度。

技术分享

超标量也可以超流水，并行度进一步提高：MP=n*m*k

计算机体系架构

标签：预测相对存在测试程序并行处理 src 阶段 lan 9.png

原文地址：http://www.cnblogs.com/-9-8/p/6129207.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行