不敢去做一件事就会一直觉得它很难。。
以前一直觉得AC自动机应该超难写,学了以后发现实在太好写了。。
AC自动机的fail指针与KMP算法的next数组是极为相似的,都是通过这些来减少冗余的扫描,所以我也把AC自动机的fail指针名字直接开成next了。。
AC自动机与KMP的不同在于KMP是单模式串匹配,AC自动机是多模式串匹配,所以AC自动机可以理解为就是在trie树上加上一些next指针,实际上是一个状态转移图,所以也有人把它叫做trie图。。
在建AC自动机之前要先建trie树,为了方便我们设置一个虚拟的0节点,向root连26条对应每个字母的边,root的next指针就是0。建好trie树之后要构造next指针,用BFS来构造。设i为j的父亲,当从i搜到j时,i的next指针已经找出,找到i的next指针k,那么root走到k的串就是i串的一个后缀,如果k有一条与i连向j相同的边连向它的儿子l,那么l串就是j串的一个后缀,将j串的next指针指向l即可,否则不断寻找k的next指针,最终一定可以找到这样一个k(0节点),这样就可以构造出来了。。要标记一个节点是否是危险节点,也就是root走到这个点的串是否包含一个模式串。。关于一个点i的next是危险节点是否要把i标记为危险节点的问题我觉得要因题而异。。
匹配的时候用类似构造next指针的方法将一个个字符添加进来,就是不断回溯next指针然后看是否有这个字母的边。。
AC自动机的思想和KMP大体上是一样的(我觉得…),非常巧妙。。
HDU 2222(卡了空间我的好像过不了):
#include<iostream> #include<cstdio> #include<memory.h> #define N 500005 #define M 1000005 using namespace std; int i,j,T,n,nd,a[N][27],Next[N],End[N],que[N]; char s[M]; void ins(char *s) { int i,now=1,len=strlen(s); for (i=0;i<len;i++) if (a[now][s[i]-'a']) now=a[now][s[i]-'a']; else now=a[now][s[i]-'a']=++nd; End[now]++; } void build() { int head=1,tail=1,get,i,t; que[1]=1; while (head<=tail) { get=que[head++]; for (i=0;i<26;i++) if (a[get][i]) { t=Next[get]; while (!a[t][i]) t=Next[t]; Next[a[get][i]]=a[t][i]; que[++tail]=a[get][i]; } } } int run(char *s) { int i,now=1,t,ans=0,len=strlen(s); for (i=0;i<len;i++) { while (!a[now][s[i]-'a']) now=Next[now]; now=a[now][s[i]-'a']; t=now; while (t) { ans+=End[t]; End[t]=0; t=Next[t]; } } return ans; } int main() { scanf("%d",&T); while (T--) { memset(a,0,sizeof(a)); memset(End,0,sizeof(End)); for (i=0;i<26;i++) a[0][i]=1; Next[1]=0;nd=1; scanf("%d\n",&n); for (i=1;i<=n;i++) scanf("%s",s),ins(s); build(); scanf("%s",s); printf("%d\n",run(s)); } }
原文地址:http://blog.csdn.net/tag_king/article/details/45110619