hiho一下122周后缀数组三·重复旋律

时间：2016-12-03 17:52:55 阅读：246 评论：0 收藏：0 [点我收藏+]

标签：char can 整数内存 oda 字符 space pac 过程

后缀数组三·重复旋律3

时间限制:5000ms

单点时限:1000ms

内存限制:256MB

描述

小Hi平时的一大兴趣爱好就是演奏钢琴。我们知道一个音乐旋律被表示为长度为 N 的数构成的数列。小Hi在练习过很多曲子以后发现很多作品中的旋律有共同的部分。

旋律是一段连续的数列，如果同一段旋律在作品A和作品B中同时出现过，这段旋律就是A和B共同的部分，比如在abab 在 bababab 和 cabacababc 中都出现过。小Hi想知道两部作品的共同旋律最长是多少？

解题方法提示

输入

共两行。一行一个仅包含小写字母的字符串。字符串长度不超过 100000。

输出

一行一个整数，表示答案。

样例输入

abcdefg
abacabca

样例输出

3
解题方法提示：

小Ho：这一次的问题该如何解决呢？

小Hi：嗯，这次的问题是经典的最长公共子串问题。

小Ho：我以前学过kmp，但是似乎不适用这道题目。

小Hi：是的。问题的关键就出在kmp求的是完整的匹配，而本题需要支持子串的匹配。

小Ho：那怎么用后缀数组解决呢？后缀数组求的是一个串的呀。

小Hi：对。但是你有没有想过可以把两个串拼起来成为一个串？

小Ho：啊！好妙的思路。

小Hi：我们不妨将两个串用一个没出现过的＃字符隔开。对这个拼接串求后缀数组和height 数组。

小Ho：喔！既然height和两两后缀之间的最长公共前缀有关，那是不是height的最大值就是答案呀？

小Hi：只说对了一部分。直接这样子做是不对的。举个例子abab和a，我们对abab#a求后缀数组，得到：

suffix	sa	height	belong
#a	5	0	/
a	6	0	a
ab#a	3	1	abab
abab#a	1	2	abab
b#a	4	0	abab
bab#a	2	1	abab

我们发现height的最大值是2，而正确答案显然是1。

小Ho：这是为什么？

小Hi：由于例子中ab#a和abab#a两个后缀的开始位置同属于前一个字符串，导致计算出了前一个字符串内部的"公共子串"。

小Ho：哦，我明白了。我想想怎么修改这个算法...

小Hi：其实很简单，强行把他们分离就好了。

小Ho：是不是我们只需求排名相邻，原来不在同一个字符串的 height 值的最大值。

小Hi：为什么？

小Ho：你想啊，如果两个后缀在不同串中，计算它们最长前缀时必定要跨越过这些height值。举个例子，比如上面例子中求abab和a的最长前缀时（对应后缀数组中第4个和第2个），我们跨越了第2个后缀和第3个后缀这个不同串的“分界处”。

小Hi：说的太对了！

小Ho：我这就去实现一下！

小Hi：这个做法可以推广到做任意多个串的最长公共子串，如果你有兴趣也可以好好想想。

小Ho：嗯，应该也难不倒我。就把独立思考留给我吧！

#include <iostream>
#include <cstring>
#include <cstdio>
#include <algorithm>
#include <cmath>
#include <string>
#include <map>
#include <stack>
#include <queue>
#include <vector>
#define inf 2e9
#define met(a,b) memset(a,b,sizeof a)
typedef long long ll;
using namespace std;
const int N = 2e5+5;
const int M = 4e5+5;
int cmp(int *r,int a,int b,int l)
{
    return (r[a]==r[b]) && (r[a+l]==r[b+l]);
}

int wa[N],wb[N],wss[N],wv[N];
int Rank[N];//后缀i在sa[]中的排名
int height[N];//sa[i]与sa[i-1]的LCP
int sa[N];//sa[i]表示排名第i小的后缀的下标
void DA(int *r,int *sa,int n,int m)  //此处N比输入的N要多1，为人工添加的一个字符，用于避免CMP时越界
{
    int i,j,p,*x=wa,*y=wb,*t;
    for(i=0; i<m; i++) wss[i]=0;
    for(i=0; i<n; i++) wss[x[i]=r[i]]++;
    for(i=1; i<m; i++) wss[i]+=wss[i-1];
    for(i=n-1; i>=0; i--) sa[--wss[x[i]]]=i; //预处理长度为1
    for(j=1,p=1; p<n; j*=2,m=p) //通过已经求出的长度J的SA，来求2*J的SA
    {
        for(p=0,i=n-j; i<n; i++) y[p++]=i; // 特殊处理没有第二关键字的
        for(i=0; i<n; i++) if(sa[i]>=j) y[p++]=sa[i]-j; //利用长度J的，按第二关键字排序
        for(i=0; i<n; i++) wv[i]=x[y[i]];
        for(i=0; i<m; i++) wss[i]=0;
        for(i=0; i<n; i++) wss[wv[i]]++;
        for(i=1; i<m; i++) wss[i]+=wss[i-1];
        for(i=n-1; i>=0; i--) sa[--wss[wv[i]]]=y[i]; //基数排序部分
        for(t=x,x=y,y=t,p=1,x[sa[0]]=0,i=1; i<n; i++)
            x[sa[i]]=cmp(y,sa[i-1],sa[i],j)?p-1:p++;  //更新名次数组x[],注意判定相同的
    }
}

void calheight(int *r,int n)  // 此处N为实际长度
{
    int i,j,k=0;        // height[]的合法范围为 1-N, 其中0是结尾加入的字符
    for(i=1; i<=n; i++) Rank[sa[i]]=i; // 根据SA求Rank
    for(i=0; i<n; height[Rank[i++]] = k ) // 定义：h[i] = height[ Rank[i] ]
    for(k?k--:0,j=sa[Rank[i]-1]; r[i+k]==r[j+k]; k++); //根据 h[i] >= h[i-1]-1 来优化计算height过程
}
int idx;
int belong[N];
int n,m,aa[N];
char s1[N],s2[N];
int Find()
{
    DA(aa,sa,n+1,31);
    calheight(aa,n);
    int maxn=0;
    for(int i=1;i<=n;i++){
        if((sa[i-1]<idx&&sa[i]>idx)||(sa[i-1]>idx&&sa[i]<idx))maxn=max(maxn,height[i]);
    }
    return maxn;
}

int main ()
{
    scanf("%s",s1);
    scanf("%s",s2);
    idx=strlen(s1);
    s1[idx]=‘#‘;
    s1[idx+1]=0;
    strcat(s1,s2);  
    n=strlen(s1);
    for(int i=0; s1[i]; i++){
        aa[i]=s1[i]-‘a‘+1;
    }aa[idx]=30;
    int l=0,r=n;
    int ans=Find();
    printf("%d\n",ans);
    return 0;
}

hiho一下122周后缀数组三·重复旋律

标签：char can 整数内存 oda 字符 space pac 过程

原文地址：http://www.cnblogs.com/jianrenfang/p/6128914.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

hiho一下122周 后缀数组三·重复旋律

后缀数组三·重复旋律3

描述

输入

输出

hiho一下122周后缀数组三·重复旋律