码迷,mamicode.com
首页 > 编程语言 > 详细

【整理】如何选取后缀数组&&后缀自动机

时间:2017-12-13 11:37:43      阅读:264      评论:0      收藏:0      [点我收藏+]

标签:poj   iostream   put   efi   adc   splay   stream   printf   技术分享   

 后缀家族已知成员

        后缀树
        后缀数组
        后缀自动机
        后缀仙人掌
        后缀预言
        后缀Splay ?
后缀树是后缀数组和后缀自动机的祖先? 功能还是比较强大的,在回文串或者字典序方面还是有用处。 而且现在已经有了线性的建树方法。
(但其实我也没用过后缀树。)下面对比后缀自动机和后缀数组
 
 
  • 其他

  • 最小表示法: 后缀自动机                
  • 最小循环节 :后缀数组

个人感觉:

单串和两串的题,基本上用后缀数组或者后缀自动机都可以实现。多串的题用广义后缀自动机也是非常强的,有点题如果要用后缀数组,则必须要用RMQ(树状数组||ST)+二分,甚至要用Splay来解决。当然灵活的运用后缀数组加各种工具来解决问题,才能应对各种难题,毕竟后缀自动机也是有局限的。个人更倾向于写后缀自动机,感觉好实现一点,代码也好看一点。

下面对比一下多串字符串的处理

广义后缀自动机的题:

             

POJ3294:  题意:给定一些模板字符串,求一个最长公共字串,这个最长公共字串至少在一半以上的字符串里出现过。

                    对比:如果是后缀数组,则要+二分+RMQ;而广义后缀自动机只需要记录出现的位置,最后传递即可。

技术分享图片
#include<iostream>
#include<cstdio>
#include<algorithm>
#include<cstring>
#include<memory>
#include<cmath>
#define maxn 350003
using namespace std;
int n,len,ans,Max,now;
char s[1010],cap[1010];
struct SAM
{
    int ch[maxn][26],fa[maxn],maxlen[maxn],Last,sz;
    int root,nxt[maxn],size[maxn];
    void init()
    {
        sz=0;
        root=++sz;
        memset(size,0,sizeof(size));
        memset(ch[1],0,sizeof(ch[1]));
        memset(nxt,0,sizeof(nxt));
    }
    void add(int x)
    {
        int np=++sz,p=Last;Last=np;
        memset(ch[np],0,sizeof(ch[np]));
        maxlen[np]=maxlen[p]+1;
        while(p&&!ch[p][x]) ch[p][x]=np,p=fa[p];
        if(!p) fa[np]=1;
        else {
            int q=ch[p][x];
            if(maxlen[p]+1==maxlen[q]) fa[np]=q;
            else {
                int nq=++sz;
                memcpy(ch[nq],ch[q],sizeof(ch[q]));size[nq]=size[q]; nxt[nq]=nxt[q];
                maxlen[nq]=maxlen[p]+1;
                fa[nq]=fa[q];
                fa[q]=fa[np]=nq;
                while(p&&ch[p][x]==q) ch[p][x]=nq,p=fa[p];
            }
        }
        for(;np;np=fa[np]) 
          if(nxt[np]!=now) {
              size[np]++;
              nxt[np]=now;
          }else break;
    }
    void dfs(int x,int d){//输出    
       if(d!=maxlen[x] || d>ans) return;
       if(maxlen[x]==ans && size[x]>n){ puts(cap); return; }
          for(int i=0;i<26;++i)
          if(ch[x][i]){ cap[d]=i+a; dfs(ch[x][i],d+1); cap[d]=0; }
    }
};
SAM Sam;
int main()
{
    while(~scanf("%d",&n)&&n){     
        Sam.init();
        for(int i=1;i<=n;i++) {
            scanf("%s",s+1);
            Sam.Last=Sam.root;
            len=strlen(s+1);
            now=i;
            for(int j=1;j<=len;j++) Sam.add(s[j]-a);
        }
        Max=0;ans=0;n>>=1;
        for(int i=1;i<=Sam.sz;i++) 
            if(Sam.size[i]>n&&Sam.maxlen[i]>ans) { Max=i;ans=Sam.maxlen[i];}
        if(ans) Sam.dfs(1,0);
        else puts("?");
        puts("");
    }
    return 0;
}
View Code

SPOJ8093  题意:给定一些模板串,询问每个匹配串在多少个模板串里出现过。

                    对比:同上。传递的两种方式:每加一个字符传递一次;也可以用bitset记录在哪里出现过等到加完所有字符串后再拓扑排序,然后“亦或”向上传递。

技术分享图片
#include<iostream>
#include<cstdio>
#include<algorithm>
#include<cstring>
#include<cmath>
#define N 200003
using namespace std;
int ch[N][30],fa[N],l[N],n,m,len;
int r[N],v[N],cnt,np,p,nq,q,last,root,nxt[N],now,size[N];
char s[N];
void extend(int x)
{
    int c=s[x]-a;
    p=last; np=++cnt; last=np; 
    l[np]=l[p]+1;
    for (;p&&!ch[p][c];p=fa[p]) ch[p][c]=np;
    if (!p) fa[np]=root;
    else {
        q=ch[p][c];
        if (l[q]==l[p]+1) fa[np]=q;
        else {
            nq=++cnt; l[nq]=l[p]+1;
            memcpy(ch[nq],ch[q],sizeof ch[nq]); size[nq]=size[q]; nxt[nq]=nxt[q];
            fa[nq]=fa[q];
            fa[q]=fa[np]=nq;
            for (;ch[p][c]==q;p=fa[p]) ch[p][c]=nq;
        }
    }
    for (;np;np=fa[np]) 
     if (nxt[np]!=now) {
         size[np]++;
         nxt[np]=now;
     }
     else break;
}
int main()
{
    scanf("%d%d",&n,&m);
    root=++cnt;
    for(int i=1;i<=n;i++) {
        scanf("%s",s+1);
        last=root;
        len=strlen(s+1);
        now=i;
        for (int j=1;j<=len;j++) 
         extend(j);
    }
    for (int i=1;i<=m;i++) {
        scanf("%s",s+1);
        len=strlen(s+1);
        p=root;
        for (int j=1;j<=len;j++)  p=ch[p][s[j]-a];
        printf("%d\n",size[p]);
    }
}
View Code

 (对于后缀数组,在下还不是很敏感,多做点之后再补充一些上来)

 

 顺便发两张后缀自动机的图

 

技术分享图片

状态子串endpos
S 空串 {0,1,2,3,4,5,6}
1 a {1,2,5}
2 aa {2}
3 aab {3}
4 aabb,abb,bb {4}
5 b {3,4,6}
6 aabba,abba,bba,ba {5}
7 aabbab,abbab,bbab,bab {6}
8 ab {3,6}
9 aabbabd,abbabd,bbabd,babd,abd,bd,d {7}

【整理】如何选取后缀数组&&后缀自动机

标签:poj   iostream   put   efi   adc   splay   stream   printf   技术分享   

原文地址:http://www.cnblogs.com/hua-dong/p/8031093.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!