【集训第五天·后缀数组】哇哈哈哈哈~

时间：2017-04-06 00:08:37 阅读：236 评论：0 收藏：0 [点我收藏+]

标签：article 开头计算 closed ini ide 自己建模 tar

　　前面放了几天假（虽然我们是在补课），所以懒得写博客。补课期间学习了网络流，后面写专题总结。网络流主要是建模，慢慢搞。

　　后缀数组这个东西非常难搞，当初老师讲的时候我（lao）们（shi）水了2h，讲完还是一脸懵逼。虽然思路是理解了，但是完全不知道代码是什么意思。cnm

　　然后某一天晚上我没交手机，坐在寝室的床上从23点啃代码啃到00：30，终于是明白了。。cnm

----------------------------------------------------------------------------分割线

　　少年啊，结束你那无聊的吐槽，进入正题吧！

　　好，说正事。

　　计算和建立后缀数组的思路大致是这样的（倍增法）：

　　PS：排序时，如果关键字均相同，那么先出现的排在前面，即按照后缀开头字母在原串中的先后顺序排列。这样做的原因不明，我自己推测是可以后出现的排前面，但有2处这样的排序，必须保持一致

　　1.把每位字符单个排序，排出第一次sa数组（基数排序，代码有点。。不想吐槽）

　　2.枚举要计算的后缀长度，for(int k=1;k<=n;k<<1)此处就是倍增，先按照第二关键字排序（利用上一次求得的sa数组），再按照第一关键字排序（基数排序，桶桶桶），排出当前k长度下的sa数组

　　这样就完了，是不是很简单？？（智障）

　　值得注意的是，代码中有两个优化

　　1.当所有位置的排名都不同时，即至少有n个不同排名时，break掉循环。因为再往后找也没有什么卵子用啊，第一关键字才是排序重点啊，喂

　　2.每次重新计算x数组，即元素数组（应该可以叫这个名字吧。。），表示不同的元素在前一次的排名（没啥卵用，只用知道它把相同的元素给揉到一块就行），这样可以优化m，即数组中元素个数

　　对于思路的详细图解及正确性参考

http://blog.csdn.net/yxuanwkeith/article/details/50636898

此处附上代码（网上的详解版，注释超级多）

CODE：

 1 void da(int *r,int *sa,int n,int m)
 2 {
 3     int i,k,p,*x=wa,*y=wb; //x数组相当于rank,y数组相当于第二关键字 
 4     for(i=0;i<m;i++) ws[i]=0; //m是字符的最大值，ws数组用于辅助基数排序
 5     for(i=0;i<n;i++) ws[x[i]=r[i]]++; //计算ws和x，x只用作比较排序，所以没有必要算出真实名次 
 6     for(i=1;i<m;i++) ws[i]+=ws[i-1]; //计算ws 
 7     for(i=n-1;i>=0;i--) sa[--ws[x[i]]]=i; 
 8     //计算第一次的sa值 0  2  1  3
 9    
10     for(k=1;k<=n;k<<=1) //倍增，k是当前串的长度 
11     {
12         p=0;
13         //对第二关键字进行排序，直接利用上一次计算出的sa数组 
14         for(i=n-k;i<n;i++) y[p++]=i; //空串肯定小，所以用的序表示sa[]
15         for(i=0;i<n;i++) if(sa[i]>=k) y[p++]=sa[i]-k; 
16         //上一次的sa左移k位还未消失，即sa[i]>=k，则按顺序写入y，得到第二关键字顺序  3  1  0  2 
17         
18         //对第一关键字进行排序 
19         for(i=0;i<m;i++) ws[i]=0; 
20         for(i=0;i<n;i++) ws[x[y[i]]]++; 
21         for(i=1;i<m;i++) ws[i]+=ws[i-1]; 
22         for(i=n-1;i>=0;i--) sa[--ws[x[y[i]]]]=y[i]; //0  2  3  1
23         
24         //因为下一次要用rank，所以必须要计算rank的值，最终存储在x中，y此时没用了，用来临时存储rank 
25         swap(x,y);//x,y为指针，所以赋值x的值到y，可直接交换指针的值
26         
27         //计算新的rank,因为可能有相同串，所以对于相同的rank必须相同，
28         //因为sa已经求出，则接利用求出的sa值来求，只需要找到哪些串相等，令其rank相同，不同的依次加1 
29         //方法是直接判断rank[i]和rank[i+k]的是否相同 
30         p=1,x[sa[0]]=0;
31         for(i=1;i<n;i++)
32             x[sa[i]]=   y[sa[i-1]==y[sa[i]]] && y[sa[i-1]+k]==y[sa[i]+k]  ? p-1:p++;
33         if(p>=n)break;//优化，如果名次全部不同，则完成 
34         m=p; //优化，字符最大为p，所以令m=p 
35     }
36 }