标签:
Aho-Corasick automaton,该算法在1975年产生于贝尔实验室,是著名的多模式匹配算法之一。
KMP算法很好的解决了单模式匹配问题,如果有了字典树的基础,我们可以完美的结合二者解决多模式匹配问题。
在KMP算法中,我们预先根据待匹配串自身的信息得到失配指针,使得在每次匹配不成功后,可以不再去处理模式串的已匹配过的部分,进而使得复杂度降为O(N)。
对于多模式串匹配问题,当一个模式串与待匹配串不匹配时,失配指针可以指向任意一个串,这就需要我们利用字典树来组织所有模式串并得到失配指针。
构造失配指针的详细过程可参考 http://blog.csdn.net/niushuai666/article/details/7002823
时间复杂度分析:假设有N个长不超过m的模式串,待匹配串长度为L。建字典树的复杂度为O(Nm),对于每个L的前缀,最坏情况下匹配树高(m)次,故总的复杂度为O((N+L)*m)。
我的模板
/* 基于HDOJ 2222 的 AC自动机 文本串对多个模板串的查找 */ const int maxn=610000; int ch[maxn][26],fail[maxn],end[maxn]; int root,sz; char str[1000100]; int newnode() { memset(ch[sz],-1,sizeof(ch[sz])); end[sz++]=0; return sz-1; } void init() { sz=0; root=newnode(); } void insert(char str[]) { int len=strlen(str); int now=root; for(int i=0;i<len;i++) { int& temp=ch[now][str[i]-‘a‘]; if(temp==-1) temp=newnode(); now=temp; } end[now]++; } void build() { queue<int> q; fail[root]=root; for(int i=0;i<26;i++) { int& temp=ch[root][i]; if(temp==-1) temp=root; else { fail[temp]=root; q.push(temp); } } while(!q.empty()) { int now=q.front(); q.pop(); for(int i=0;i<26;i++) { if(ch[now][i]==-1) ch[now][i]=ch[fail[now]][i]; else { fail[ch[now][i]]=ch[fail[now]][i]; q.push(ch[now][i]); } } } } int query(char str[]) { int len=strlen(str); int now=root; int ret=0; for(int i=0;i<len;i++) { now=ch[now][str[i]-‘a‘]; int temp=now; while(temp!=root&&~end[temp]) { ret+=end[temp]; end[temp]=-1; temp=fail[temp]; } } return ret; }
标签:
原文地址:http://www.cnblogs.com/WCB-ACM/p/4903199.html