4.6 Projections
在进行真正的场景渲染之前,必须把场景中的所有相关对象都投影到某个平面上或某种简单的包围体内。完成投影之后,就开始执行裁和渲染操作(见第2.3节)。
到目前为止,本章中的变换操作都没有使用到向量的第四个元素分量,w-分量。也就是说,点和向量在变换后依然为保持为原来的类型。另外,4×4 矩阵的最下面一行元素始终为 (0 0 0 1)。Perspective projection matrices(透视投影矩阵)则是这两种属性的一个例外情况:矩阵最下面一行包含了向量和点的操纵数,并且总是需要执行homogenization(齐次化)操作(即,w 分量通常不为 1,因此需要执行一次除以 w 的运算以获得非齐次的点)。而在本节首先会讨论的Orthographic projection(正交投影)是一种更简单的投影,也是很常用的。这种投影方式不会影响 w 分量。
在本节中,我们假设负z-轴表示观察者的观看方向,y轴表示向上的方向,x轴表示向右的方向。这是一种右手坐标系。在一些书本和软件中,比如DirectX,使用左手坐标系,其中观察者的趋向对应于正z-轴。这两坐标系表示方法同等有效,并且产生的最终结果是一样的。
4.6.1 Orthographic Projection(正交投影)
正交投影的特点之一是平行线在投影后依然保持平行。如下所示,矩阵 Po 是一个简单的正交投影矩阵,该投影不会改变坐标点的 x- 和 y-分量,只是简单地把 z-分量设置为零,即正交地投影到平面 z=0:
Po=?????1000010000000001?????.(4.59)
这种投影的效果如图4.16所示。显然,矩阵 Po是不可逆的,因为行列式 |Po|=0。换句话说,该变换从三维降到二维,并且没有办法取回丢弃的维度。使用这种正交投影产生的观察问题是,它会把 z分量值为正的坐标点和 z分量值为负的坐标点都投影到投影平面上。这种方法通常用于将坐标点的 z-值(以及x-和y-值)限制到特定的间隔范围内,比如说从 n(near plane)到 f(far plane)。这是下一个变换的目的。
图4.16
用于执行正交投影变换的矩阵通常使用六元组 (l,r,b,t,n,f) 表示,分别表示left,right,bottom,top,near以及far平面。这个矩阵本质上是缩放和平移AABB(轴对齐包围盒;详见第16.2节中的定义),通过把6个平面放置到以原点为中心的轴对齐立方体的每一面中形成的。AABB的最小拐角是 (l,b,n),最大拐角为 (r,t,f)。需要重点注意的是 n>f,因为我们是沿着该空间体的负 z-轴方向观察。但是根据常识我们一般会认为near值应该是比far更小的数值。在OpenGL中观察方向也是朝向负 z-轴,但是在调用glOrtho函数创建正交投影矩阵时会把输入的near值表示为小于far值,然后在内部计算时对这两个值取反。另一种思考方式是OpenGL的near和far值是沿着观察方向(负 z-轴)的(正)距离值,而不是 z 视点坐标值。
在OpenGL中,轴对齐立方体的最小拐角为 (?1,?1,?1),最大拐角为 (1,1,1);而在DirectX中,对应的边界为 (?1,?1,0) 到(1,1,1)。该立方体称为canonical view volume(规范视图体),里面的坐标称为normalized device coordinates(NDC规范化设备坐标)。变换过程如图4.17所示。之所以要变换到canonical view volume内,是因为在这种坐标下裁剪操作更高效。
图4.16
变换到canonical view volume之后,就根据该立方体对要渲染的几何图形的顶点进行裁剪。最后通过把单位正方形映射到屏幕,渲染位于立方体范围内的几何图形。这种正交变换矩阵如下所示:
Po=S(s)T(t)=???????????2r?l00002t?b00002f?n00001??????????????????????100001000010?r+l2?t+b2?f+n21???????????.=???????????2r?l00002t?b00002f?n0?r+lr?l?t+bt?b?f+nf?n1???????????.(4.60)
如该公式所示:矩阵 Po 可以写成一个平移矩阵 T(t),以及一个缩放矩阵 S(s) 的串联,其中 s=(2/(r?l),2(t?b),2/(f?n)),t=(?(r+l)/2),?(t+b)/2,?(f+n)/2)。该矩阵是可逆的,即 P?1o=T(?t)S((r?l)/2,(t?b)/2,(f?n)/2)。
在计算机图形学中,经过投影变换之后通常使用左手坐标系—即对于视口来说,x-轴表示向右的方向,y-轴表示向上的方向,z-轴表示指向视口里面的方向。由于我们用于定义AABB的方式是far值小于near值,因此正交变换将始终包括一次镜像变换操作。使用这种方式,我们可以把原始AABBs看成与目标包围体,即canonical view volume的大小一致。于是AABB的坐标 (?1,?1,1) 对应于 (l,b,n),(1,1,?1) 对应于 (r,t,f)。由此可以得到公式4.60
Po=?????1000010000?100001?????.(4.61)
这是一种镜像矩阵。正是通过这种镜像从右手观察坐标系(观察方向为负 z-轴)转换到左手normalized device coordinates(NDC)。
DirectX将 z-深度值映射到范围 [0,1],而不是OpenGL中使用的[?1,1]。在使用正交矩阵执行变换之后,通过应用一个简单的缩放和平移矩阵就可以实现这种转换,该矩阵为
Mst=?????10000100000.50000.51?????.(4.62)
因此在DirectX中使用的正交矩阵为
Po[0,1]=???????????2r?l00002t?b00001f?n0?r+lr?l?t+bt?b?nf?n1???????????.(4.63)
通常使用矩阵的转置进行计算,因为在DirectXk中,通常使用行优先矩阵的表示方法。
4.6.2 Perspective Projection
比正交投影更有趣的一种变换是透视投影,在大多数计算机图形学应用程序中都会使用这种变换。在这种情况下,平行线在投影之后通常不再是平行的;相反,可能会在无穷远处聚集到单个点。透视投影更接近于我们感知真实世界的情况,即距离观察者越远的物体看起来越小。
首先,我们将提出一种有关透视投影矩阵的具有指导意义的推导过程,该投影矩阵把物体投影到平面 z=?d,d>0 上。从world space的推导到进一步简化对world-to-view变换的理解,最后推导出OpenGL中所使用的更规范的矩阵。
图4.18
假设相机(视点)位于坐标原点,并且我们想要将点 p 投影到平面 z=?d,d>0 上,产生一个新的点 q=(qx,qy,?d)。这种情形如图4.18所示。从该图中显示的相似三角形,由以下推导公式可以得到 q 的 x-分量:
qxpx=?dpz?qx=?dpxpz.(4.64)
q 的其他分量对应的表达式为 qy=?dpy/pz(计算过程与 qx 类似),qz=?d。与上述公式一起,可以推导出透视投影矩阵 Pp,如下所示:
Pp=?????10000100001?1/d0000?????.(4.65)
通过公式4.66的简单验证可以确认该矩阵产生的透视投影的正确性:
q=Ppp=?????10000100001?1/d0000???????????pxpypz1??????=??????pxpypz?pz/d??????????????dpx/pz?dpy/pz?d1??????.(4.66)
最后一步是基于整个向量除以 w-分量(在这种情况下该分量值为 ?pz/d)的事实,以便于在最后位置得到值1。由此生成的 z值总是为 ?d,因为这是我们要投影的平面。
直观地说,很容易理解为什么齐次坐标允许投影。齐次化过程的一种几何解释是该操作把点 (px,py,pz) 投影到平面 w=1 上。
与正交变换一样,也有一个对应的透视变换,用于把视锥体变换为canonical view volume,而不是投影到一个具体的平面上(这种变换是不可逆的)。其中视锥体假定为起始于 z=n 处,并在 z=f 处结束,其中 0>n>f。位于 z=n 处的矩形具有最小拐角值 (l,b,n),以及最大拐角 (r,t,n)。如图4.19所示。
图4.19
参数 (l,r,b,t,n,f) 确定了相机的视锥体。水平视域由左平面和右平面(由 l 和 r 确定)之间的角度决定。使用两样的方法,由顶平面和底平面(由 t 和 b 确定)之间的角度可以确定垂直视域。视域范围越大,通过相机能观察到的场景越多。通过设置 r≠?l 或者 t≠?b 可以创建非对称的平截头体。例如,非对称的平截头体可以用于表示立体视角(见第18.1.4节)以及CAVEs中[210]。
视域是提供给观察者一种场景感觉的重要因素。与计算机屏幕相比,人的眼睛本身具有物理上的视域范围。这种对应关系为
?=2arctan(w/(2d)).(4.64)
其中
? 表示视域,
w 表示物体垂直于视线的宽度,
d 是观察点到物体的距离。例如,一个21英寸的显示器大约是16英寸宽,而推荐的最小观察距离为25英寸[27],由此产生一个35度的物理视域。依次计算,在12英寸远处,视域为67度;在18英寸处,则是48度;在30英寸为30度。这个公式也可以用于从相机镜头尺寸转换到视域范围,比如一个标准的50mm镜头用在35mm相机上(具有36mm宽的框架尺寸)可以得到
?=2arctan(36/(2?50))=39.6度。
与物理设置相比,使用一个更窄的视域范围将会减少透视效果,因为场景中的观察者将会被放大。设置一个更宽的视域将使物体看起来变得扭曲(就像使用一个宽角度相机镜头),特别是靠近屏幕边缘的位置,并且会扩大附近物体的规模。但是,更宽的视域范围能够带给观察者一种物体变得更大,更令人印象深刻的感觉,并且具有向用户提供有关周围环境更多信息的优点。
感觉对象更大,更令人印象深刻,并有优势
向用户提供关于周围环境的更多信息。
使用公式4.68所示的透视变换矩阵可以把视锥体变换为一个单位立方体:
Po[0,1]=???????????2nr?l00002nt?b00?r+lr?l?t+bt?bf+nf?n100?2fnf?n0???????????.(4.68)