用有限自动机（DFA）实现字符串匹配

时间：2019-11-05 01:01:52 阅读：147 评论：0 收藏：0 [点我收藏+]

这个算法在算法导论上写的很晦涩，而且还搞了一大堆定义和推导。其实背后的想法很naive。

既然要做字符串匹配，那就构造一个有限自动机出来：对于长度为n的pattern，如果当前字符串匹配上了一个字符，那么自动机的状态就是1；如果当前字符串匹配上了两个字符，那么自动机的状态就是2，……如果当前字符串把整个pattren都匹配了，那么自动机的状态就是n（也就是pattern的长度）。

现在问题来了，待匹配的字符串是千变万化的，怎么办？自动机的核心——状态转移函数——应该是什么样的？注意到，状态转移函数要对每个状态和每个可能的输入都有明确的定义，所以，只能对每个状态，都把整个字母表遍历一遍。

对于每个pattern，都有一个自动机；每个自动机也只和pattern有关（当然也和字母表有关，但是和待匹配的字符串无关）。

例如，pattern是“ababc”，待匹配的字符串是“abababc”那么，当字符串已经匹配了“abab”的时候（此时自动机的当前状态是4），下一个输入字符是“a”，那么，自动机的下一个状态应该是多少呢？稍微思考10秒钟，发现自动机的下一个状态应该是3。——这就是所谓的后缀函数的本质。

然后按照这个思路想下去，得到的结论和算法导论上讲的那一堆晦涩难懂的东西，是一样的。

其实就是，先针对pattern，咬咬牙先多花点时间（时间复杂度是pattern的长度乘以字母表的长度），把“任何状态X任何输入”的结果（用最笨的方法）算出来——其实不是算出来，是像小孩数数一样数出来。然后把这结果存到一个表里面（就是有限自动机的状态转移函数的矩阵表示）。然后，不管待匹配字符串是什么，都直接去查表就行了。

用有限自动机（DFA）实现字符串匹配

标签：匹配表示 nbsp 串匹配推导遍历针对本质时间

原文地址：https://www.cnblogs.com/adgjl/p/11795769.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行