标签:
一.有限自动机定义及基本术语:
一个有限自动机 M 是一个5元组(Q, ,A, Σ, δ),其中:
记号与术语:
二.引入的函数定义:
转移函数δ(transition function)( δ 读作"delta",对应大写为 Δ ).有限自动机开始于初始状态,每次读入输入字符串的一个字符,如果有限自动机在状态q是读入字符‘a‘, 则M状态从q变成 δ(q, a);
终态函数 Φ(finite state function)( Φ 读作"fai", 对应小写为 φ ) 是从 Σ* 到 Q 的函数,Φ(w)是永动机M 扫描字符串 w 终止后的状态;M 接受字符串w 当且仅当Φ(w)∈A, 函数Φ有下列递归关系定义:
φ(ε) = q0;(空字符串 ε 的终态为q0)
φ(wa) = δ(φ(w),a) (其中w∈Σ*,a∈Σ)
辅助函数,后缀函数σ 对应于模式字串P ( σ 读作 "sigma", 对应大写为 Σ )是从Σ* 到{0,1, ..., m}上的映射,σ(x)是字符串x的后缀同时是P的前缀的最大长度;
σ(x) = max{k: Pk ? x }
有P0 = ε是所有所有字符串的后缀;
注意:后缀函数的主要意义的是求出当前匹配失败时,求出已经匹配过的部分字串x是否是待匹配模式字串P的前缀,即匹配可以跳过x中部分长度( σ(x) ),可以用于实现转移过程;同时也表明在接受输入字符串x后的状态(终态),即也用于实现终态函数。
三、字符串匹配自动机(string-matching automation)
下图是依据模式串 P="ababaca" 构建的自动机图表:
上图(a)是一个自动机的状态转换图表,接受所有以字符串"ababaca"结尾的字符串。其中状态0是初始状态,状态7是唯一接受状态(单模式匹配).
3.字符串匹配有限自动机定义:
给定模式(pattern)字符串 P[1...m],其对应的字符串匹配有限自动机定义如下:
δ(q,a) = σ(Pq,a) <等式一>
假设当前已经读入的字符串为T,为了让T的字串(以T[i]为结尾) 能匹配模式字串Pj,必须满足Pj是Ti的后缀;同时假设q = φ(Ti),说明读取字串Ti后自动机M 状态变成q;同时根据转移函数<等式一>可知q是模式字串P最大长度的前缀,同时是Ti的后缀;因此在状态q,有Pq ? Ti 和 q = σ(Ti) (当q 等于m 时,说明模式字串P整个是Ti的后缀,也意味着匹配查找成功了),因此有σ(Ti)= q,得出永动机也支持下面的等式(终态函数也是抽象的,转化为后缀函数表达式后,可以用code表示):
φ(Ti) = σ(Ti)(i = 0,1,...n) <等式二>
2同时有两个引理(具体证明可以参考算法导论):
引理1、后缀函数不等式:
σ(xa) ≤ σ(x) + 1 (对于任何字符串x,以及字母a)
引理2、后缀函数递归引理:
对于任何字符串x,以及字母a,如果q = σ(x),有:
σ(xa) = σ(Pqa)
<等式二> 可以用数学归纳法证明,具体如下:
1、当i = 0,因为T0 = ε,因此有φ(Ti) = 0 = σ(Ti)
2、假设φ(Ti) = σ(Ti),证明φ(Ti+1) = σ(Ti+1),用q 表示φ(Ti),用字母a表示T[i+1],有:
φ(Ti+1) = φ(Tia) (Ti+1 == Tia)
= δ(φ(Ti),a) (根据终态函数的定义)
= δ(q,a) (根据q的定义)
= σ(Pqa) (根据等式一)
= σ(Tia) (根据引理二)
= σ(Ti+1) (Ti+1 == Tia)
从上面可以知道当读入T i 的终态(亦即读入T[i]后转移函数状态)等于模式长度,就匹配成功了,下面是有限自动机机匹配算法伪代码:
下面就是根据<等式一>来实现转移函数的伪代码:
利用有限自动机(finite automata)进行模式匹配
标签:
原文地址:http://www.cnblogs.com/wxgblogs/p/5699298.html