KMP字符串匹配算法

时间：2018-10-10 22:07:59 阅读：193 评论：0 收藏：0 [点我收藏+]

去年冬天就接触KMP算法了，但是听的不明不白，遇到字符串匹配的题我大都直接使用string中的find解决了，但今天数据结构课又讲了一下，我觉得有必要再来回顾一下。之前看过很多关于KMP的博客，有很多虽然很好，但是要么太专业，要么很难想象，这篇博客用了大量的图示例子来说明，主要在于启发，后面给出代码说明。

主要参考：http://www.ruanyifeng.com/blog/2013/05/Knuth%E2%80%93Morris%E2%80%93Pratt_algorithm.html

https://www.cnblogs.com/yjiyjige/p/3263858.html

KMP算法引入：

KMP是三位大牛：D.E.Knuth、J.H.Morris和V.R.Pratt同时发现的。

KMP算法要解决的问题就是在字符串（也叫主串）中的模式（pattern）定位问题。说简单点就是我们平时常说的关键字搜索。模式串就是关键字（接下来称它为P），如果它在一个主串（接下来称为T）中出现，就返回它的具体位置，否则返回-1（常用手段）。

技术分享图片

首先，对于这个问题有一个很单纯的想法：从左到右一个个匹配，如果这个过程中有某个字符不匹配，就跳回去，将模式串向右移动一位。这有什么难的？

我们可以这样初始化：

技术分享图片

之后我们只需要比较i指针指向的字符和j指针指向的字符是否一致。如果一致就都向后移动，如果不一致，如下图：

技术分享图片

A和E不相等，那就把i指针移回第1位（假设下标从0开始），j移动到模式串的第0位，然后又重新开始这个步骤：

技术分享图片

基于这个想法我们可以得到以下的程序：

 1 public static int bf(String ts, String ps)
 2 {
 3     int i = 0; // 主串的位置
 4     int j = 0; // 子串的位置
 5     while (i < t.length && j < p.length)
 6     {
 7         if (t[i] == p[j])/// 当两个字符相同，就比较下一个
 8         {
 9             i++;
10             j++;
11         }
12         else
13         {
14             i = i - j + 1;///一旦不匹配，i后退
15             j = 0; ///j归0
16         }
17 
18     }
19     if (j == p.length)
20     {
21         return i - j;///匹配成功返回子串在母串最先出现的位置
22     }
23     else
24     {
25         return -1;///不成功返回-1
26     }
27 
28 }

然而这并不是一种优秀的算法，因为会出现指针的回退，一旦匹配不成功就要退回子串的其实位置，而之前完成的部分匹配也将作废，时间复杂度为O（n*m）。

而KMP算法却能将时间复杂度优化为O(n+m)，它是怎么做到的呢？我们再举一个例子。

（1）对于已经匹配到这种状态的两个字符串：

技术分享图片

一个基本事实是，当空格与D不匹配时，你其实知道前面六个字符是"ABCDAB"。KMP算法的想法是，设法利用这个已知信息，不要把"搜索位置"移回已经比较过的位置，继续把它向后移，这样就提高了效率。

（2）

技术分享图片

怎么做到这一点呢？可以针对搜索词，算出一张《部分匹配表》（Partial Match Table）。这张表是如何产生的，后面再介绍，这里只要会用就可以了。

（3）

技术分享图片

已知空格与D不匹配时，前面六个字符"ABCDAB"是匹配的。查表可知，最后一个匹配字符B对应的"部分匹配值"为2，因此按照下面的公式算出向后移动的位数：

移动位数 = 已匹配的字符数 - 对应的部分匹配值

因为 6 - 2 等于4，所以将搜索词向后移动4位。

(4)

技术分享图片

因为空格与Ｃ不匹配，搜索词还要继续往后移。这时，已匹配的字符数为2（"AB"），对应的"部分匹配值"为0。所以，移动位数 = 2 - 0，结果为 2，于是将搜索词向后移2位。

(5)

技术分享图片

因为空格与A不匹配，继续后移一位。

(6)

技术分享图片

逐位比较，直到发现C与D不匹配。于是，移动位数 = 6 - 2，继续将搜索词向后移动4位。

(7)

技术分享图片

逐位比较，直到搜索词的最后一位，发现完全匹配，于是搜索完成。如果还要继续搜索（即找出全部匹配），移动位数 = 7 - 0，再将搜索词向后移动7位，这里就不再重复了。

下面介绍《部分匹配表》是如何产生的。

首先，要了解两个概念："前缀"和"后缀"。 "前缀"指除了最后一个字符以外，一个字符串的全部头部组合；"后缀"指除了第一个字符以外，一个字符串的全部尾部组合。

技术分享图片

"部分匹配值"就是"前缀"和"后缀"的最长的共有元素的长度。以"ABCDABD"为例，

－　"A"的前缀和后缀都为空集，共有元素的长度为0；
　　－　"AB"的前缀为[A]，后缀为[B]，共有元素的长度为0；
　　－　"ABC"的前缀为[A, AB]，后缀为[BC, C]，共有元素的长度0；
　　－　"ABCD"的前缀为[A, AB, ABC]，后缀为[BCD, CD, D]，共有元素的长度为0；
　　－　"ABCDA"的前缀为[A, AB, ABC, ABCD]，后缀为[BCDA, CDA, DA, A]，共有元素为"A"，长度为1；
　　－　"ABCDAB"的前缀为[A, AB, ABC, ABCD, ABCDA]，后缀为[BCDAB, CDAB, DAB, AB, B]，共有元素为"AB"，长度为2；
　　－　"ABCDABD"的前缀为[A, AB, ABC, ABCD, ABCDA, ABCDAB]，后缀为[BCDABD, CDABD, DABD, ABD, BD, D]，共有元素的长度为0。

为了记录这些信息我们使用了一个next数组来记录每一个字符的部分匹配值。

最后在对基本原理进行一下说明：

技术分享图片

"部分匹配"的实质是，有时候，字符串头部和尾部会有重复。比如，"ABCDAB"之中有两个"AB"，那么它的"部分匹配值"就是2（"AB"的长度）。搜索词移动的时候，第一个"AB"向后移动4位（字符串长度-部分匹配值），就可以来到第二个"AB"的位置。这也是我认为KMP算法最为厉害的地方，利用字符串自身具有的重复性避免了指针的回退！！！

KMP字符串匹配算法

标签：参考第一个搜索除了 ble 就是 abc 字符串匹配算法 target

原文地址：https://www.cnblogs.com/wkfvawl/p/9768729.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行