码迷,mamicode.com
首页 > 其他好文 > 详细

编辑距离算法

时间:2014-07-28 21:27:24      阅读:329      评论:0      收藏:0      [点我收藏+]

标签:style   blog   http   java   color   os   2014   for   

编辑距离,又称Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。俄罗斯科学家Vladimir Levenshtein在1965年提出这个概念。

例如将kitten一字转成sitting:

sitten (k→s)
sittin (e→i)
sitting (→g)

算法思想:动态规划经常被用来作为这个问题的解决手段。

首先需要定义这样一个函数——edit(i, j),它表示第一个字符串的长度为i的子串到第二个字符串的长度为j的子串的编辑距离。

显然可以有如下动态规划公式:

if i == 0 且 j == 0,edit(i, j) = 0
if i == 0 且 j > 0, edit(i, j) = j
if i > 0  且j == 0, edit(i, j) = i
if i ≥ 1  且 j ≥ 1 ,edit(i, j) == min{ edit(i-1, j) + 1, edit(i, j-1) + 1, edit(i-1, j-1) + f(i, j) }//当第一个字符串的第i个字符不等于第二个字符串的第j个字符时,f(i, j) = 1;否则,f(i, j) = 0。

kitten一字转成sitting,根据公式,可以得到

当i=0:  edit(0,0)=0,edit(0,1)=1,edit(0,2)=2,edit(0,j)=j

当j=0: edit(0,0)=0,edit(1,0)=1,edit(2,1)=2,edit(i,0)=i

当i>>1,j>>1: edit(1,1)=min(edit(0,1)+1,edit(1,0)+1,edit(0,0)+f(1,1)) //s1[0]=s不等于s2[0]=k , f(1,1)=1;=>edit(1,1)=1

因此可以推出,kitten一字转成sitting的编辑矩阵:

bubuko.com,布布扣

Java代码实现如下:

bubuko.com,布布扣
package com.editDistance;
public class EditDistance {

    public static void main(String[] args)
    {
        String str1="kitten";
        String str2="sitting";
        int res=getEditDistance(str1,str2);
        System.out.println("最小编辑距离是:"+res);
    }
    
    private static int min(int a,int b)
    {
        return a<b?a:b;
    }
    
    public static int getEditDistance(String str1,String str2)
    {
        int len1=str1.length();
        int len2=str2.length();
        int m[][]=new int[len1+1][len2+1];
        
        for(int i=0;i<len1+1;i++)
        {
            m[i][0]=i;
        }
        for(int j=0;j<len2+1;j++)
        {
            m[0][j]=j;
        }
        for(int i=1;i<len1+1;i++)
        {
            for(int j=1;j<len2+1;j++)
            {
                int temp=min(m[i-1][j]+1,m[i][j-1]+1);
                int d;
                //注意这里是str1.charAt(i-1),因为字符串是从charAt(0)下标开始的
                if(str1.charAt(i-1)==str2.charAt(j-1))
                {
                    d=0;
                }
                else
                {
                    d=1;
                }
                
                m[i][j]=min(temp,m[i-1][j-1]+d);
            }
        }
        System.out.println("编辑矩阵是:");
        System.out.println("****************");
        for(int i=0;i<len1+1;i++)
        {
            for(int j=0;j<len2+1;j++)
            {
                System.out.print(m[i][j]+" ");
            }
            System.out.println();
        }
        System.out.println("****************");
        
        return m[len1][len2];
    }
    
}
View Code

运行结果:

bubuko.com,布布扣

 http://zh.wikipedia.org/wiki/%E7%B7%A8%E8%BC%AF%E8%B7%9D%E9%9B%A2

编辑距离算法,布布扣,bubuko.com

编辑距离算法

标签:style   blog   http   java   color   os   2014   for   

原文地址:http://www.cnblogs.com/qianwen/p/3873223.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!