码迷,mamicode.com
首页 > 其他好文 > 详细

AC自动机 总结

时间:2014-07-22 23:54:27      阅读:351      评论:0      收藏:0      [点我收藏+]

标签:blog   io   2014   for   re   c   

模板--参考刘汝佳训练指南

/*===============================*按照训练指南写的
\*===============================*/
#include<cstring>
#include<queue>
#include<cstdio>
#include<map>
#include<string>
using namespace std;

const int SIGMA_SIZE = 26;
const int MAXNODE = 11000;
const int MAXS = 150 + 10;

map<string,int> ms;

struct AhoCorasickAutomata {
  int ch[MAXNODE][SIGMA_SIZE];
  int f[MAXNODE];    // fail函数
  int val[MAXNODE];  // 每个字符串的结尾结点都有一个非0的val
  int last[MAXNODE]; // 输出链表的下一个结点
  int cnt[MAXS];
  int sz;

  void init() {
    sz = 1;
    memset(ch[0], 0, sizeof(ch[0]));
    memset(cnt, 0, sizeof(cnt));
    ms.clear();
  }
  inline void clear(){memset(cnt,0,sizeof(cnt));}//如果text不只是一个的话,经常需要每次find都清空一次cnt数组
  // 字符c的编号
  inline int idx(char c) {
    return c-'a';
    //这里一定小心,如果没有给定字符范围的话,直接return c;
    //因为可能出现负的...病毒侵袭那题就是
  }

  // 插入字符串。v必须非0
  void insert(char *s, int v) {
    int u = 0, n = strlen(s);
    for(int i = 0; i < n; i++) {
      int c = idx(s[i]);
      if(!ch[u][c]) {
        memset(ch[sz], 0, sizeof(ch[sz]));
        val[sz] = 0;
        ch[u][c] = sz++;
      }
      u = ch[u][c];//u是下一个节点所存储的ch第一维的位置,相当于我trie中的nxt
    }
    val[u] = v;
     //v是附加信息,最好区分开每个单词这样
     //cnt可以记录出现了哪些以及出现了几次
     ms[string(s)] = v;
  }

  // 递归打印以结点j结尾的所有字符串
  void print(int j) {
    if(j) {
      cnt[val[j]]++;//val[j]为单词的编号,ms存储了编号和单词的对应,可以用于打印单词
      print(last[j]);
    }
  }

  // 在T中找模板
  int find(char* T) {
    int n = strlen(T);
    int j = 0; // 当前结点编号,初始为根结点
    for(int i = 0; i < n; i++) { // 文本串当前指针
      int c = idx(T[i]);
      while(j && !ch[j][c]) j = f[j]; // 顺着细边走,直到可以匹配
      j = ch[j][c];
      if(val[j]) print(j);//到单词结尾
      else if(last[j]) print(last[j]); // 找到了!
    }
  }

  // 计算fail函数
  void getFail() {
    queue<int> q;
    f[0] = 0;
    // 初始化队列
    for(int c = 0; c < SIGMA_SIZE; c++) {
      int u = ch[0][c];
      if(u) { f[u] = 0; q.push(u); last[u] = 0; }
    }//因为第一个字符不匹配需要重新匹配,
    //所以第一个字符都指向root(root是Trie入口,没有实际含义)
    //就是说所有单词第一个字符的f[]都等于0,把节点e的fail指针指向root表示没有匹配序列

    // 按BFS顺序计算fail
    while(!q.empty()) {
      int r = q.front(); q.pop();
      for(int c = 0; c < SIGMA_SIZE; c++) {
        int u = ch[r][c];
        if(!u) continue;
        q.push(u);
        int v = f[r];
        while(v && !ch[v][c]) v = f[v];//ch[v][c]==0的时候,就是说没有继续可以匹配的字母边了,也是没法继续匹配了,所以继续沿失配函数走
        f[u] = ch[v][c];
        last[u] = val[f[u]] ? f[u] : last[f[u]];
        //last[j] 节点j沿着适配指针往回走时,遇到的下一个单词结点编号
        //last是为了解决找到一个单词之后,看看有没有其他串包含
      }
    }
  }
};

AhoCorasickAutomata ac;

1、看字符范围,修改SIGMA_SIZE以及idx函数

AC自动机 总结,布布扣,bubuko.com

AC自动机 总结

标签:blog   io   2014   for   re   c   

原文地址:http://blog.csdn.net/u011026968/article/details/38051525

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!