[CLRS][CH 15.4] 最长公共子序列

时间：2014-12-04 19:45:47 阅读：261 评论：0 收藏：0 [点我收藏+]

标签：style blog http color sp for strong on 数据

---恢复内容开始---

摘要

介绍了最长公共子序列的概念及解题思路。

子序列概念

子序列：一个给定序列的子序列就是该给定序列中，去掉零个或多个元素。一般来说，给定一个序列 X = <x₁, x₂, ..., x_m>，另一个序列 Z = <z₁, z₂, ..., z_k> 如果存在X的一个严格递增下标序列<i₁, i₂, ..., i_k>，使得所有的j = 1, 2, ..., k，有x_ij = z_j，则Z是X的一个子序列。例如，Z = <B, C, D, B> 是 X = <A, B, C, B, D, A, B> 的一个子序列，相应下标序列为<2, 3, 5, 7>。

公共子序列：给定两个序列X和Z，如果Z既是X的子序列又是Y的子序列，则称Z为X和Y的公共子序列。

最长公共子序列(Longest Common Substring, LCS)：就是最长的那个公共子序列了。

在最长子序列问题中，给定两个序列 X = <x₁, x₂, ..., x_m> 和 Y = <y₁, y₂, ..., y_n>，希望找出X和Y的LCS。我们可以用动态规划来有效解决。

步骤1：描述一个LCS

解决LCS问题的一种强力方法是枚举X所有子序列，逐一检查是否为Y的子序列，并记录所发现的最长子序列。对于有m个元素的序列X，一共有2^m个子序列，显然不切实际。

然而LCS问题具有最优子结构性质。给定一个序列 X = <x₁, x₂, ..., x_m>，对于i = 0, 1, ..., m，定义X的第i个前缀为 X_i = <x₁, x₂, ..., x_i>。
例如，如果 X = <A, B, C, B, D, A, B>，则 X₄ = <A, B, C, B>，而X₀是一个空序列。

定理(LCS的最优子结构)：设 X = <x₁, x₂, ..., x_m> 和 Y = <y₁, y₂, ..., y_n> 为两个序列，并设 Z = <z₁, z₂, ..., z_k> 为X和Y的任意一个LCS。
1）如果 x_m = y_n，那么 z_k = x_m = y_n且 Z_k-1是 X_m-1 和 Y_n-1的一个LCS；
2）如果 x_m != y_n，那么 z_k != x_m 蕴含 Z 是 X_m-1 和 Y 的一个LCS；
3）如果 x_m != y_n，那么 z_k != y_n 蕴含 Z 是 Y_n-1 和 X 的一个LCS。

证明：这他妈说了个啥。
1）如果 z_k != x_m ，则可以添加 x_m = y_n到Z中，即得到X和Y的一个长度为k+1的公共子序列，与Z是X和Y的LCS矛盾，因而必有 z_k = x_m = y_n。并且此时前缀 Z_k-1是 X_m-1 和 Y_n-1的长度为k-1的公共子序列。假设 X_m-1 和 Y_n-1有一个长度大于k-1的公共子序列W，那么 x_m = y_n添加到W上就会产生一个长度大于k的公共子序列，因而与Z是X和Y的LCS矛盾。得证。
2）如果 z_k != x_m 那么Z是 X_m-1 和 Y 的一个LCS。如果 X_m-1 和 Y 有一个长度大于k的公共子序列W，则W也应该是 X_m 和 Y 的一个公共子序列，这与Z为X和Y的LCS的假设矛盾。得证。
3）与证明2）对称，得证。

解释：这条定理的特征说明两个序列的一个LCS也包含了两个序列的前缀的一个LCS。这就说明LCS问题具有最优子结构性质。

步骤2：一个递归解

根据定理我们可知在找 X = <x₁, x₂, ..., x_m> 和 Y = <y₁, y₂, ..., y_n> 的一个LCS时，可能要检查一个或两个子问题。即：
如果 x_m = y_n，必须找出 X_m-1 和 Y_n-1的一个LCS。将 x_m = y_n添加到这个子LCS上，产生X和Y的一个LCS；
如果 x_m != y_n，就必须解决两个子问题：找出 X_m-1 和 Y 的一个LCS，以及 Y_n-1 和 X 的一个LCS。这两个LCS中，较长的就是X和Y的一个LCS。

很容易看出LCS问题中重叠子问题性质。定义c[i,j]为序列X_i和Y_i的一个LCS长度。如果i=0或j=0，其中一个的序列长度为0，因而LCS长度为0。由此得递归方程：

$\textrm{c}[i,j]= \begin{cases} 0&,\ i = 0\or\ j=0\\ c[i-1,j-1]+1&,\ i,j>0 \or\ x_{i}=y_{i}\\ \textrm{max}(c[i,j-1],c[i-1,j])&,\ i,j>0 \or\ x_{i}\neq y_{i} \end{cases}$

步骤3：计算LCS长度

过程LCS-LENGTH以两个序列 X = <x₁, x₂, ..., x_m> 和 Y = <y₁, y₂, ..., y_n> 为输入。运行时间为O(mn)。
它把c[i,j]的值填入一个按行计算表项的表c[0..m, 0..n]中（如下图）；
它还维护表b[1..m, 1..n]以简化最优解的构造，b[i,j]指向一个表项，对应于在计算c[i,j]时所选择的最优子问题的解；
它返回表b和c；c[m,n]即为X和Y的一个LCS长度。

bubuko.com,布布扣

LCS-LENGTH(X, Y)
// 初始化表项
m = length[X]
n = length[Y]
for i = (0 to m) c[i,0] = 0
for j = (0 to n) c[0,j] = 0
// 循环计算LCS长度
for i = (1 to m)
    for j = (1 to n)
        if (x[i] = y[j])
            c[i,j] = c[i-1,j-1] + 1
            b[i,j] = &b[i-1,j-1]
        else if (c[i-1,j] >= c[i,j-1])
            c[i,j] = c[i-1,j]
            b[i,j] = &b[i-1,j]
        else
            c[i,j] = c[i,j-1]
            b[i,j] = &b[i,j-1]
// 返回结果
return b and c

步骤4：构造一个LCS

我们可以很容易地根据表b的结果快速构造X和Y的LCS。首先从b[m,n]开始，根据指针跟踪下去。每当遇到一个指向左上方的指针时，意味着 x_m = y_n是LCS的一个元素，输出尔后继续追踪。该跟踪过程运行时间为O(m+n)。

改进代码

我们可以完全去掉表b，每个表项c[i,j]仅依赖于另外三个c的表项，即c[i-1,j-1], c[i-1,j], c[i,j-1]。给定c[i,j]的值，我们可以在O(1)时间内确定这三个值中哪一个是被用来计算c[i,j]的，而不用检查表b。这样我们就可以在同样O(m+n)时间内重构一个LCS。这种方法节省了O(mn)的空间。但并没有节省运行时间。当然，我们可以更激进一些，如果不需要重构LCS，只要求结果的话，我们只要c中两行数据就可以计算。因而进一步节省了空间。

[CLRS][CH 15.4] 最长公共子序列

标签：style blog http color sp for strong on 数据

原文地址：http://www.cnblogs.com/rancher/p/4142788.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行