字符串编辑距离

时间：2014-08-26 11:37:26 阅读：281 评论：0 收藏：0 [点我收藏+]

标签：算法 c语言

【题目】

给定一个源串和目标串，能够对源串进行如下操作：
1. 在给定位置上插入一个字符
2. 替换任意字符
3. 删除任意字符

写一个程序，返回最小操作数，使得对源串进行这些操作后等于目标串，源串和目标串的长度都小于2000。

【分析】参考自：点击打开链接

此题常见的思路是动态规划，假如令dp[i][j] 表示源串S[0…i] 和目标串T[0…j] 的最短编辑距离，其边界：dp[0][j] = j，dp[i][0] = i，那么我们可以得出状态转移方程：

dp[i][j] =min{
- dp[i-1][j] + 1 , S[i]不在T[0…j]中
- dp[i-1][j-1] + 1/0 , S[i]在T[j]
- dp[i][j-1] + 1 , S[i]在T[0…j-1]中

}

接下来，咱们重点解释下上述3个式子的含义

关于dp[i-1][j] + 1, s.t. s[i]不在T[0…j]中的说明
- s[i]没有落在T[0…j]中，即s[i]在中间的某一次编辑操作被删除了。因为删除操作没有前后相关性，不妨将其在第1次操作中删除。除首次操作时删除外，后续编辑操作是将长度为i-1的字符串，编辑成长度为j的字符串：即dp[i-1][j]。
- 因此：dp[i][j] = dp[i-1][j] + 1。

关于dp[i-1][j-1] + 0/1, s.t. s[i] 在T[j]的说明
- 若s[i]经过编辑，最终落在T[j]的位置。
- 则要么s[i] == t[j]，s[i]直接落在T[j]。这种情况，编辑操作实际上是将长度为i-1的S’串，编辑成长度为j-1的T’串：即dp[i-1][j-1]；
- 要么s[i] ≠ t[j]，s[i] 落在T[j]后，要将s[i]修改成T[j]，即在上一种情况的基础上，增加一次修改操作：即dp[i-1][j-1] + 1。
关于dp[i][j-1] + 1, s.t. s[i]在T[0…j-1]中的说明
- 若s[i]落在了T[1…j-1]的某个位置，不妨认为是k，因为最小编辑步数的定义，那么，在k+1到j-1的字符，必然是通过插入新字符完成的。因为共插入了(j-k)个字符，故编辑次数为(j-k)次。而字符串S[1…i]经过编辑，得到了T[1…k]，编辑次数为dp[i][k]。故： dp[i][j] = dp[i][k] + (j-k)。
- 由于最后的(j-k)次是插入操作，可以讲(j-k)逐次规约到dp[i][k]中。即：dp[i][k]+(j-k)=dp[i][k+1] + (j-k-1) 规约到插入操作为1次，得到 dp[i][k]+(j-k) =dp[i][k+1] + (j-k-1) =dp[i][k+2] + (j-k-2)=… =dp[i][k+(j-k-1)] + (j-k)-(j-k-1) =dp[i][j-1] + 1。

上述的解释清晰规范，但为啥这样做呢？

换一个角度，其实就是字符串对齐的思路。例如把字符串“ALGORITHM”，变成“ALTRUISTIC”，那么把相关字符各自对齐后，如下图所示：

把图中上面的源串S[0…i] = “ALGORITHM”编辑成下面的目标串T[0…j] = “ALTRUISTIC”，我们枚举字符串S和T最后一个字符s[i]、t[j]对应四种情况：（字符-空白）（空白-字符）(字符-字符)（空白-空白）。

由于其中的（空白-空白）是多余的编辑操作。所以，事实上只存在以下3种情况：

下面的目标串空白，即S + 字符X，T + 空白，S变成T，意味着源串要删字符
- dp[i - 1, j] + 1
上面的源串空白，S + 空白，T + 字符，S变成T，最后，在S的最后插入“字符”，意味着源串要添加字符
- dp[i, j - 1] + 1
上面源串中的的字符跟下面目标串中的字符不一样，即S + 字符X，T + 字符Y，S变成T，意味着源串要修改字符
- dp[i - 1, j - 1] + (s[i] == t[j] ? 0 : 1)

综上，可以写出简单的DP状态方程：

//dp[i,j]表示表示源串S[0…i] 和目标串T[0…j] 的最短编辑距离
dp[i, j] = min { dp[i - 1, j] + 1,  dp[i, j - 1] + 1,  dp[i - 1, j - 1] + (s[i] == t[j] ? 0 : 1) }
//分别表示：删除1个，添加1个，替换1个（相同就不用替换）。

【代码】

#include <stdio.h>
#include <stdlib.h>
#include <string.h>

#define myMin(a, b) (((a) < (b)) ? (a) : (b))

int dp[1001][1001];

int eidtDistance(char *pSource, char *pTarget)
{
	int srcLen = strlen(pSource);
	int trgtLen = strlen(pTarget);
	int i, j;
	for (i = 0; i <=srcLen; ++i)
		dp[i][0] = i;
	for (j = 1; j <= trgtLen; ++j)
		dp[0][j] = j;
	for ( i = 1; i <= srcLen; ++i)
		for(j = 1; j <= trgtLen; ++j) {
			if (pSource[i - 1] == pTarget[j - 1])
				dp[i][j] = dp[i-1][j-1];
			else
				dp[i][j] = myMin(myMin(dp[i-1][j], dp[i][j-1]), dp[i-1][j-1]) + 1;
				
		}
	return dp[srcLen][trgtLen];
}

int main(void)
{
	char pSource[] = "ACB";
	char pTarget[] = "ABCDEF";
	int res;
	res = eidtDistance(pSource, pTarget);
	printf("%d\n", res);
	return 0;
}

字符串编辑距离

标签：算法 c语言

原文地址：http://blog.csdn.net/jjjcainiao/article/details/38844785

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行