标签:
Aho-Corasick automaton,该算法在1975年产生于贝尔实验室,是著名的多模式匹配算法之一。
KMP算法很好的解决了单模式匹配问题,如果有了字典树的基础,我们可以完美的结合二者解决多模式匹配问题。
在KMP算法中,我们预先根据待匹配串自身的信息得到失配指针,使得在每次匹配不成功后,可以不再去处理模式串的已匹配过的部分,进而使得复杂度降为O(N)。
对于多模式串匹配问题,当一个模式串与待匹配串不匹配时,失配指针可以指向任意一个串,这就需要我们利用字典树来组织所有模式串并得到失配指针。
构造失配指针的详细过程可参考 http://blog.csdn.net/niushuai666/article/details/7002823
时间复杂度分析:假设有N个长不超过m的模式串,待匹配串长度为L。建字典树的复杂度为O(Nm),对于每个L的前缀,最坏情况下匹配树高(m)次,故总的复杂度为O((N+L)*m)。
我的模板
/*
基于HDOJ 2222 的 AC自动机
文本串对多个模板串的查找
*/
const int maxn=610000;
int ch[maxn][26],fail[maxn],end[maxn];
int root,sz;
char str[1000100];
int newnode()
{
memset(ch[sz],-1,sizeof(ch[sz]));
end[sz++]=0;
return sz-1;
}
void init()
{
sz=0;
root=newnode();
}
void insert(char str[])
{
int len=strlen(str);
int now=root;
for(int i=0;i<len;i++)
{
int& temp=ch[now][str[i]-‘a‘];
if(temp==-1) temp=newnode();
now=temp;
}
end[now]++;
}
void build()
{
queue<int> q;
fail[root]=root;
for(int i=0;i<26;i++)
{
int& temp=ch[root][i];
if(temp==-1) temp=root;
else
{
fail[temp]=root;
q.push(temp);
}
}
while(!q.empty())
{
int now=q.front(); q.pop();
for(int i=0;i<26;i++)
{
if(ch[now][i]==-1)
ch[now][i]=ch[fail[now]][i];
else
{
fail[ch[now][i]]=ch[fail[now]][i];
q.push(ch[now][i]);
}
}
}
}
int query(char str[])
{
int len=strlen(str);
int now=root;
int ret=0;
for(int i=0;i<len;i++)
{
now=ch[now][str[i]-‘a‘];
int temp=now;
while(temp!=root&&~end[temp])
{
ret+=end[temp];
end[temp]=-1;
temp=fail[temp];
}
}
return ret;
}
标签:
原文地址:http://www.cnblogs.com/WCB-ACM/p/4903199.html