标签:
给定两个序列
例子:
X=A,B,C,B,D,A,B ,y=B,D,C,A,B,A ,最长公共子序列为B,C,B,A 。
注意:最长公共字串(LongestCommonSubstring)要求元素必须连续,最长公共子序列不要求,只要求子序列前后顺序不变。
问题意义:一种衡量两个序列“相似度”的方法,最长公共子序列越长,两者相似度越高。
补充:其他衡量两个序列/串相似度的方法:
1.如果,将一个串转换成另一个串的所需的操作步骤很少,那么两者是相似的;(《编程之美》字符串距离;《算法导论》15-5编辑距离)
2.如果一个串为另一个串的子串,那么两者是相似的。(字符串匹配)
1.暴力破解法:X的子序列共有2^m种,对于每一种X的子序列判断是否为Y的子集,Y的子序列有2^m种,需要指数级别的时间复杂度O(2^(m+n))。
2.动态规划法,时间复杂度O(m*n)。
定义:
X=x1,x2,x3...,xm 的第i个前缀为Xi=x1,x2,x3...,xi (i<=m,i=0的Xi为空串)
令X=x1,x2,x3...,xm 和Y=y1,y2,y3,...,yn 为两个序列,Z=z1,z2,z3,...,zk 为X 和Y 的任意LCS。
LCS的最优子结构:
1.如果xm=yn ,则zk=xm=yn 且Zk?1 是Xm?1 和Yn?1 的一个LCS。
2.如果xm≠yn ,那么zk≠xm 意味着Z 是Xm?1 和Y 的一个LCS。
3.如果xm≠yn ,那么zk≠yn 意味着Z 是X 和Yn?1 的一个LCS。
设计LCS的算法首先要建立最优解的递归式。我们定义
LCS问题只有O(m*n)个不同的子问题,可以用自底向上的动态规划算法实现。
表b用于构造最优解,表c用于用于记录LCS长度,伪代码如下:
LCS-LENGTH(X,Y)
m = X.length
n = Y.length
let b[1...m,1..n] and c[0...m,0...n] be new tables
for i = 1 to m
c[i,0] = 0
for i = 1 to n
c[0,i] = 0
for i = 1 to m
for j = 1 to n
if xi = yj
c[i,j] = c[i-1,j-1] + 1
b[i,j] = ‘↖‘
elseif c[i-1,j] >= c[i,j-1]
c[i,j] = c[i-1,j]
b[i,j] = ‘↑‘
else
c[i,j] = c[i,j-1]
b[i,j] = ‘←‘
return b and c
利用表b构造出最优解,起始调用为PRINT-LCS(b,X,X.length,Y.length)
伪代码如下:
PRINT-LCS(b,X,i,j)
if i == 0 or j == 0
return
elseif b[i,j] == ‘↖‘
PRINT-LCS(b,X,i-1,j-1)
print xi
elseif b[i,j] == ‘↑‘
PRINT-LCS(b,X,i-1,j)
else
PRINT-LCS(b,X,i,j-1)
1.去除表b,只利用c重构出LCS的元素。
2.如果只计算LCS的长度,不需重构LCS中的元素,那么c表只需要两行就可以了,空间需求减少为O(min(m,n))。
标签:
原文地址:http://blog.csdn.net/chensilly8888/article/details/45488585