码迷,mamicode.com
首页 > 其他好文 > 详细

用有限自动机(DFA)实现字符串匹配

时间:2019-11-05 01:01:52      阅读:147      评论:0      收藏:0      [点我收藏+]

标签:匹配   表示   nbsp   串匹配   推导   遍历   针对   本质   时间   

这个算法在算法导论上写的很晦涩,而且还搞了一大堆定义和推导。其实背后的想法很naive。

 

既然要做字符串匹配,那就构造一个有限自动机出来:对于长度为n的pattern,如果当前字符串匹配上了一个字符,那么自动机的状态就是1;如果当前字符串匹配上了两个字符,那么自动机的状态就是2,……如果当前字符串把整个pattren都匹配了,那么自动机的状态就是n(也就是pattern的长度)。

 

现在问题来了,待匹配的字符串是千变万化的,怎么办?自动机的核心——状态转移函数——应该是什么样的?注意到,状态转移函数要对每个状态和每个可能的输入都有明确的定义,所以,只能对每个状态,都把整个字母表遍历一遍。

 

对于每个pattern,都有一个自动机;每个自动机也只和pattern有关(当然也和字母表有关,但是和待匹配的字符串无关)。

例如,pattern是“ababc”,待匹配的字符串是“abababc”那么,当字符串已经匹配了“abab”的时候(此时自动机的当前状态是4),下一个输入字符是“a”,那么,自动机的下一个状态应该是多少呢?稍微思考10秒钟,发现自动机的下一个状态应该是3。——这就是所谓的后缀函数的本质。

 

然后按照这个思路想下去,得到的结论和算法导论上讲的那一堆晦涩难懂的东西,是一样的。

 

其实就是,先针对pattern,咬咬牙先多花点时间(时间复杂度是pattern的长度乘以字母表的长度),把“任何状态X任何输入”的结果(用最笨的方法)算出来——其实不是算出来,是像小孩数数一样数出来。然后把这结果存到一个表里面(就是有限自动机的状态转移函数的矩阵表示)。然后,不管待匹配字符串是什么,都直接去查表就行了。

用有限自动机(DFA)实现字符串匹配

标签:匹配   表示   nbsp   串匹配   推导   遍历   针对   本质   时间   

原文地址:https://www.cnblogs.com/adgjl/p/11795769.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!