码迷,mamicode.com
首页 > 其他好文 > 详细

解编辑距离问题

时间:2014-08-06 22:11:12      阅读:207      评论:0      收藏:0      [点我收藏+]

标签:style   http   color   os   strong   for   ar   问题   

编辑距离(Edit Distance),又称Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。
许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。
例如将kitten一字转成sitting:
sitten (k→s)
sittin (e→i)
sitting (→g)
俄罗斯科学家Vladimir Levenshtein在1965年提出这个概念。应用:DNA分析、拼字检查、语音辨识、抄袭侦测、相似度计算。
 
动态规划经常被用来作为这个问题的解决手段之一。
整数 Levenshtein距离(字符串 str1[1..m], 字符串 str2[1..n])
//声明变量, d[i , j]用于记录str1[0...i]与str2[0..j]的Levenshtein距离
int d[0..m, 0..n]
//初始化
for i from 0 to m
  d[i, 0] := i //删除i个字符
for j from 0 to n
  d[0, j] := j //插入j个字符
//用动态规划方法计算Levenshtein距离
for i from 1 to m
{
  for j from 1 to n
  {
    //计算替换操作的代价,如果两个字符相同,则替换操作代价为0,否则为1
    if str1[i]== str2[j] then cost := 0
    else cost := 1
    //d[i,j]的Levenshtein距离,可以有
    d[i, j] := minimum{
    d[i-1, j] + 1, //在str1上i位置删除字符(或者在str2上j-1位置插入字符)
    d[i, j-1] + 1, //在str1上i-1位置插入字符(或者在str2上j位置删除字符)
    d[i-1, j-1] + cost // 替换操作
    }
  } 
}
//返回d[m, n]
return d[m, n]

解编辑距离问题,布布扣,bubuko.com

解编辑距离问题

标签:style   http   color   os   strong   for   ar   问题   

原文地址:http://www.cnblogs.com/mmcmmc/p/3895538.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!