码迷,mamicode.com
首页 > 编程语言 > 详细

KMP算法

时间:2018-12-02 10:27:42      阅读:202      评论:0      收藏:0      [点我收藏+]

标签:开始   相同   前缀和   bdc   代码实现   数组   串匹配   依次   bcd   

最常见的枚举算法:

当我们要检测一个字符串是否为另一个的字符串的子串的时候,我们可以从两个字符串的头开始一个一个进行比对:

   检测abd是否为abcabdc的子串:

    第一步,将两个字符串从头开始,依次比较每一个字符:

      技术分享图片

    发现第三个字符不相等,于是再进行第二次比对:

      技术分享图片

    这次第一个字符就不相等,继续进行第三次比对……

    这种方法确实可以,但是显而易见,会造成时间上的浪费,于是有了后来的KMP算法。

 

 

 KMP算法:

在了解KMP算法之前,我们先来了解一下一个字符串的前缀和后缀,

  字符串的前缀就是除了最后一个字符以外,全部的头部组合;

  相应的,后缀就是除了第一个字符以外,全部的尾部组合。

 

给定如下字符串:”ABCDABD“,可以得到:

第1个字符  - "A"的前缀和后缀都为空集,共有元素的长度为0;

前2个字符  - "AB"的前缀为[A],后缀为[B],共有元素的长度为0;

前3个字符  - "ABC"的前缀为[A, AB],后缀为[BC, C],共有元素的长度0;

前4个字符  - "ABCD"的前缀为[A, AB, ABC],后缀为[BCD, CD, D],共有元素的长度为0;

前5个字符  - "ABCDA"的前缀为[A, AB, ABC, ABCD],后缀为[BCDA, CDA, DA, A],共有元素为"A",长度为1;

前6个字符  - "ABCDAB"的前缀为[A, AB, ABC, ABCD, ABCDA],后缀为[BCDAB, CDAB, DAB, AB, B],共有元素为"AB",长度为2;

前7个字符  - "ABCDABD"的前缀为[A, AB, ABC, ABCD, ABCDA, ABCDAB],后缀为[BCDABD, CDABD, DABD, ABD, BD, D],共有元素的长度为0。

 

我们将上面得到的7个数合并成一个数组:

[0,0,0,0,1,2,0]

这个数组后面将要拿来使用。

 

假设我们还有一个长的字符串:

  字符串:“BBC ABCDAB ABCDABCDABDE”

  

  我们将两个字符串首部对齐开始比较,如果不匹配则较短的字符串右移1位:

  第一次比较:

  技术分享图片

  第二次比较:

  技术分享图片

  直到第五次比较:

  技术分享图片

  我们发现两个字符串的前6个字符都相等,并且可以看见在‘D‘之前,长度为6的字符串“ABCDAB”,我们求的前缀和后缀有相同元素“AB”,长度为2

  

  我们可以不向右移动一位,而是将左侧"AB"的位置直接移动到右侧"AB"的位置。此时我们需要右移6(D之前字符串的长度)-2(相同前后缀的长度)=4位即可,这样大大减少了我们比较的次数:

  技术分享图片

  移动到此处再从相同字符串"AB"的后一位字符开始比较

  然后发现不匹配,继续右移2(C之前字符串的长度)-0("AB"没有相同的前后缀)=2位。

   技术分享图片

 

  然后又是从第一位开始就不相等,继续右移一位:

  技术分享图片

  和之前遇到了相同的情况,还是右移4位:

  技术分享图片

  发现完全匹配。

 

  总结:先求出一个前后缀相同元素个数组成的数组arr[],其中arr[i]代表前i+1个字符组成的字符串中,最大相同前后缀

     在进行字符串匹配时,从0开始,前面n个字符都匹配,第n+1(索引为n)的字符与母串不匹配,

     则将该字符串右移n-arr[n]位后再进行匹配。(为了将前缀移动到后缀原来的位置)

 

  之后会带来KMP算法的代码实现与详细解释。

    

 

KMP算法

标签:开始   相同   前缀和   bdc   代码实现   数组   串匹配   依次   bcd   

原文地址:https://www.cnblogs.com/s1mple/p/10051951.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!