码迷,mamicode.com
首页 > 其他好文 > 详细

AhoCorasick自动机

时间:2019-07-17 00:08:34      阅读:138      评论:0      收藏:0      [点我收藏+]

标签:加强   get   字符   ac自动机   匹配   模板匹配   mem   链接   大神   

AhoCorasick(AC)自动机相当于KMP的加强版,可用于多模板匹配。AC自动机是由Trie加上失配边组成的。

f代表失配边
val用来标记终端结点
由于同一个结点可能对应多个字符串的结尾,所以last用来表示此结点沿着失配边走的前一个终端结点,last也叫做后缀链接

刘汝佳大神的模板代码:

struct AhoCorasickAutomata {
    int ch[MAXNODE][SIGMA_SIZE];
    int f[MAXNODE];
    int val[MAXNODE];
    int last[MAXNODE];
    int sz;

    void init() {
        sz = 1;
        memset(ch[0], 0, sizeof(ch[0]));
        memset(cnt, 0, sizeof(cnt));
    }

    int idx(char c) {
        return c - a;
    }

    void insert(char *s, int v) {
        int u = 0, n = strlen(s);
        for(int i = 0; i < n; i++) {
            int c = idx(s[i]);
            if(!ch[u][c]) {
                memset(ch[sz], 0, sizeof(ch[sz]));
                val[sz] = 0;
                ch[u][c] = sz++;
            }
            u = ch[u][c];
        }
        val[u] = v;
    }

    void print(int j) {
        if(j) {
            printf("%d", val[j]);
            print(last[j]);
        }
    }

    int find(char* T) {
        int n = strlen(T);
        int j = 0;
        for(int i = 0; i < n; i++) {
            int c = idx(T[i]);
            while(j && !ch[j][c]) j = f[j];
            j = ch[j][c];
            if(val[j]) print(j);
            else if(last[j]) print(last[j]);
        }
    }

    void getFail() {
        queue<int> q;
        f[0] = 0;
        for(int c = 0; c < SIGMA_SIZE; c++) {
            int u = ch[0][c];
            if(u) f[u] = 0, q.push(u), last[u] = 0;
        }
        while(!q.empty()) {
            int r = q.front(); q.pop();
            for(int c = 0; c < SIGMA_SIZE; c++) {
                int u = ch[r][c];
                if(!u) continue;
                q.push(u);
                int v = f[r];
                while(v && !ch[v][c]) v = f[v];
                f[u] = ch[v][c];
                last[u] = val[f[u]] ? f[u] : last[f[u]];
            }
        }
    }
};

当然,为了降低时间复杂度,也为了让这个数据结构更像自动机,可以将队列操作中的"if(!u) continue"改为"if(!u) ch[r][c] = ch[f[r]][c]"。这样就不需要反复沿失配边走了,可以把"while(j && !ch[j][c]) j = f[j]"删掉。

AhoCorasick自动机

标签:加强   get   字符   ac自动机   匹配   模板匹配   mem   链接   大神   

原文地址:https://www.cnblogs.com/hanasaki/p/11198143.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!