KMP算法证明及实现

时间：2016-11-13 19:44:28 阅读：252 评论：0 收藏：0 [点我收藏+]

标签：main line 字符串匹配 out class 返回值 next数组位置 kmp算法

KMP算法

一、普通的字符串匹配

平时我们在写普通的字符串匹配算法的时候，是拿着要匹配的串去匹配被匹配的串，字符逐个比较，当发现字符失配时，被匹配的字符串的指针要回到前一次开始匹配的指针的下一个位置。这里我们称要去匹配的字符串为模式串P，被匹配的字符串为主串S，即我们拿模式串P去匹配主串S，看看P是否是S的子串。

例如：主串S是“abcabdsfabcdfrt”，模式串P是“abcd”，开始匹配时，可以看到，S和P的字符串0、1、2位置的字符是相同的，到3位置时出现不匹配，这是根据我们以往的方法，我们将主串的指针回到刚开始匹配的位置的下一个位置，即回到主串的1位置，即字符b，再拿着模式串的0位置去匹配。以此类推，每次出现失配时，主串的指针都回溯到初始匹配位置的下一个位置，模式串的指针都回到模式串的0位置。

二、为何要用KMP算法

当我们的模式串P中，出现了连续相同的字符串时，例如P=“abcabx”，我们拿这个P和主串S=“abcabqqeeabcabxxxaxxaa”去匹配时。开始匹配可以看到，主串S的0、1、2、3、4位置和模式串的0、1、2、3、4位置的字符都是相同的，接着两个串的指针都下移，到了S的5位置的字符就和P的5位置的字符就出现吧不匹配，根据以往经验我们会将S的指针回溯到1位置接着和P的0位置进行匹配。这是我们发现，我们的P的0-1和3-4位置的字符串是一样的，而且S的0-4已经和P的0-4匹配是相同的，所以主串S的3、4位置和模式串P的0、1位置是相同的。

如果用主串的1、2位置与模式串从头匹配，则都是失配的，主串S的3、4位置和模式串P的0、1位置是相同的，所以我们就可以不回溯主串的指针，让模式串的2位置直接与主串的当前位置进行匹配即可。

三、KMP算法的数学推导

根据上面的情况，我们推广到一般情况。我们用i表示指向主串的指针，j表示指向模式串的指针，当主串的第i个字符和模式串的第j个字符失配时，主串中的第i个字符（指针i不回溯）应该与模式串中的哪个位置的字符再比较呢，假设我们的主串已经和模式串匹配比较到模式串的第k个字符了，那么模式串的前k-1个字符一定和主串的第i-k+1到i-1个字符是相同的，即

P1 P2 ……Pk-1=Si-k+1 Si-K+2…… Si-1

而已经得到的部分匹配结果是

Pj-k+1 Pj-k+2 ……Pj-1=Si-k+1 Si-K+2…… Si-1

由以上两式推导得出

P1 P2 ……Pk-1= Pj-k+1 Pj-k+2 ……Pj-1

反之，若模式串中存在满足上式的两个子串，则当匹配过程中，主串中的第i个字符和模式串中的第j个字符比较不相等时，仅需要将模式串向右滑动至模式串中的第k个字符和主串中第i个字符对齐，（此时，由于模式串中前k-1个字符和第i-k到i-1位置的字符都是对应相同的，所以模式串中前k-1个字符的子串P1 P2 ……Pk-1必定与主串中第i个字符之前长度为k-1的子串Si-k+1 Si-K+2…… Si-1相等）接着匹配从模式串的第k个字符与主串的第i个字符比较起继续进行。

四、求每一个位置对应的k（即next数组）

我们用next数组来存取模式串中每一个位置对应的k值，即next[j]表示当模式串中第j个字符和模式串中相应的字符失配时，在模式串中重新和主串中该字符进行比较的字符的位置。

根据三中的数学推导，得到了next函数的定义（假设字符串起始位置是1）

当j=1时，next[j]=0;

当j!=1时，next[j]=max(k|1<k<j且P1 P2 ……Pk-1= Pj-k+1 Pj-k+2 ……Pj-1)此集合不为空时。若此集合为空，next[j]=1。

例，求模式串“abaabcac”的next数组

j	1	2	3	4	5	6	7	8
模式串	a	b	a	a	b	c	a	c
Next[j]	0	1	1	2	2	3	1	2

四、代码实现

public class KMP {

* Kmp函数实现寻找模式串str2在主串str1中的位置，返回值即为str2在str1中的位置，

* 如果str2不是str1的子串则返回-1.

private static int Kmp(String str1,String str2){

//第一步求next[j]数组

char[] strKey = str2.toCharArray();

int[] next = new int[strKey.length];

// 初始条件

int j1 = 0;

int k = -1;

next[0] =-1;

// 根据已知的前j位推测第j+1位

while (j1 < strKey.length - 1)

{

if (k == -1 || strKey[j1] == strKey[k])

{

next[++j1] = ++k;

}

else

{

k = next[k];

}

//打印一下我们的next数组

System.out.print("next[]的值 ");

for (int i = 0; i < next.length; i++) {

System.out.print(next[i]+1+" ");

}

System.out.println();

//第二步根据求得的next数组进行字符串匹配

int j=0;//j指向模式串str2，i指向主串str1.

for (int i = 0; i < str1.length(); i++) {

if(j==str2.length()) return i-j;

if(str1.charAt(i)==str2.charAt(j)) j++;

else j=next[j]+1;

}

return -1;

}

//测试数据

public static void main(String[] args) {

String str1="12345abaabcac2356";

String str2="abaabcac";

int a=Kmp(str1,str2);

System.out.println(a);

}

KMP算法证明及实现

标签：main line 字符串匹配 out class 返回值 next数组位置 kmp算法

原文地址：http://www.cnblogs.com/JCxiangbei/p/6059445.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行