标签:enc 控制 more mod 特点 god amp 方法 运用
最近在自学符号执行,因此,这篇经典文章(Symbolic Execution for Software Testing: Three Decades Later)[1]作为入门必读。
符号执行 (Symbolic Execution)是一种程序分析技术,它可以通过分析程序来得到让特定代码区域执行的输入。顾名思义,使用符号执行分析一个程序时,该程序会使用符号值作为输入,而非一般执行程序时使用的具体值。在达到目标代码时,分析器可以得到相应的路径约束,然后通过约束求解器来得到可以触发目标代码的具体值。
软件测试中的符号执行主要目标是[1]:
在给定的探索尽可能多的、不同的程序路径(program path)。对于每一条程序路径,
1) 生成一个具体输入的集合(主要能力);
2) 检查是否存在各种错误(errors,包含assertion violations, uncaught exceptions, security vulnerabilities, and memory corruption)。
从测试生成的角度,符号执行可以生成高覆盖率的测试用例。
从bug finding的角度,符号执行可以提供一个具体的输入用于触发bug(过去常常用于调试bug)。
符号执行的主要思想就是将输入(input)用符号来表征而不是具体值,同时将程序变量表征成符号表达式。因此,程序的输出就会被表征成一个程序输入的函数,即fun(input)。在软件测试中,符号执行被用于生成执行路径(execution path)的输入。
执行路径(execution path):一个true和false的序列seq={p0,p1,...,pn}。其中,如果是一个条件语句,那么pi=ture则表示这条条件语句取true,否则取false。
执行树(execution tree):一个程序的所有执行路径则可表征成一棵执行树。
如下图所示:
对应的执行树:
3条不同的执行路径构成了一棵执行树。三组输入{x=0,y=1},{x=2,y=1},{x=30,y=15}覆盖了所有的执行路径。因此,符号执行的目标就是在给定的时间内,生成一个输入的集合使得所有的(或让尽可能多的)执行路径依赖于由符号表征的输入。
符号状态(symbolic state):符号执行维护一个符号状态,它是一个<变量,符号表达式(symbolic expressions)>的mapping。
符号路径约束(symbolic path constraint): a quantifier-free first-order formula over symbolic expressions.
符号执行后的结果如下图所示:
当代码中包含循环和递归时,如果终止条件是符号的话,那么符号执行会产生无限数量的执行路径。例如下图所示,
这个时候,符号路径要么就是一串有限长度的ture
后面跟着一个false
(跳出循环),要么就是无限长的true
。如图所示,
符号执行的主要缺点:如果符号路径约束不可解(不能被solver解决)或者是不能被高效(时间效率)的解,则不能生成input。回到之前的例子(见图 ~\ref{example-program}),如果把函数twice
改成(v*v)%50
(非线性):
假设采用的sovler不可解非线性约束,那么,符号执行将失败,即无法生成input。
现代符号执行技术的特点是同时执行精确(Concrete)执行和符号(Symbolic)执行。
当给定若干个具体的输入时,Concolic testing动态地执行符号执行。Concolic testing会同时维护两个状态:
不同于传统的符号执行技术,由于Concolic testing需要维护程序执行时的整个精确状态,因此它需要一个精确的初始值。举例说明,还是之前这个例子:
代表工具:
EGT在执行每个操作之前,检查每个相关的值是精确的还是已经符号化了的,然后动态地混合精确执行和符号执行。如果所有的相关值都是一个实际的值(即精确的,concrete),那么,直接执行原始程序(即,操作,operation)。否则(至少一个值是符号化的),这个操作将会被符号执行。举例说明,假设之前那个例子,第17行改成y=10
。那么,在调用twice时,传入的参数是concrete的,返回的也是一个concrete value,因此z
也是一个concrete value。第7、8行中的z
和y+10
也会被转换成concrete vaule。然后再进行符号执行。
代表工具:
由此可见,无论是concolic testing还是EGT,他们都是动态地mix use concrete and symbolic execution。因此,也被称作“动态符号执行”。
不精确性:代码调用了第三方代码库(由于种种原因无法进行代码插装),假设传入的参数都是concrete value,那么就像EGT中的一样,可以全部当作concrete execution。即使传入的参数中包含符号,动态符号执行还是可以对符号设一个具体的值。Concolic和EGT有不同的解决方法,后面再介绍。除了调用外部代码,对于难以处理的操作数(如浮点型)或是一些复杂的函数(solver无法解决或需要耗费大量时间),使用concrete value可以帮助符号执行环节这种impression。
完整性:动态符号执行通过concrete value可以简化约束,从而防止符号执行get stuck。但是这也会带来一个新问题,就是由于这种简化,它可能会导致一些不完整性,即有时候无法对所有的execution path都能生成input。但是,当遇到不支持的操作或外部调用时,这显然优于简单地中止执行。
描述:
首先,要知道,符号执行implicitly过滤两种路径:
解决方案:
描述:
约束求解是符号执行的技术瓶颈。因此,对于solver的优化(提高solver的求解能力)成了解决这个技术瓶颈的手段。
解决方案:
(x+y>10)^(z>0)^(y<12)^(z-x=0)
。假设我们现在想生成满足(x+y>10)^(z>0)^?(y<12)
,其中我们想建立对?(y<12)
(与y有关)的feasibility。那么,(z>0)
和(z-x=0)
这两个约束都可以去掉,因为与y不相关。(x+y<10)^(x>5)=>{x=6,y=3}
。对于新的约束,首先判断这个新约束的搜索空间是缓存里约束的超集还是子集。如果是新的约束的搜索空间是缓存的约束的子集,那么,就把缓存中的约束去掉多余的条件后继续求解。如果是超集,那么直接把解代入去验证。描述:
程序语句转化成符号约束的精度对符号执行的覆盖率有很大的影响。例如,内存建模是用一个具体的数值去近似一个固定位数的整数变量可能会很有效,但是另一方面,它也会导致imprecision,比如丢失一些符号执行的路径,或探索一些无用的解。另一个例子就是指针,一些工具如DART[3]只能处理精确的指针。
解决方案:
precision和scalability是一个trade-off。需要考虑的因素有:
描述:
很多现实世界中的程序是并发的,这也意味着他们很多都是不确定的(non-deteminism)。尽管如此,符号执行已经被有效地运用在测试并发系统,分布式系统。
后续,我会记录一些step by step使用部分符号执行工具的blog。
[1]: Symbolic Execution for Software Testing: Three Decades Later
[2]: DART: Directed Automated Random Testing
[3]: CUTE: A concolic unit testing engine for C
[4]: EXE: Automatically generating inputs of death
[5]: KLEE: Unassisted and automatic generation of high-coverage tests for complex systems programs
标签:enc 控制 more mod 特点 god amp 方法 运用
原文地址:https://www.cnblogs.com/XBWer/p/9510884.html