参考文档http://www.hankcs.com/program/algorithm/implementation-and-analysis-of-aho-corasick-algorithm-in-java.html简介Aho-Corasick算法简称AC算法,通过将模式串预处理为确定有限状态自...
分类:
编程语言 时间:
2015-08-05 18:00:03
阅读次数:
403
参考文档http://blog.csdn.net/chenssy/article/details/26961957敏感词、文字过滤是一个网站必不可少的功能,如何设计一个好的、高效的过滤算法是非常有必要的。前段时间我一个朋友(马上毕业,接触编程不久)要我帮他看一个文字过滤的东西,它说检索效率非常慢。我...
分类:
编程语言 时间:
2015-08-05 17:46:54
阅读次数:
9480
敏感词过滤在网站开发必不可少。一般用DFA,这种比较好的算法实现的.参考链接:http://cmsblogs.com/?p=1031一个比较好的代码实现: 1 import java.io.IOException; 2 import java.util.ArrayList; 3 impor...
分类:
编程语言 时间:
2015-07-09 12:51:25
阅读次数:
191
三步工作
一:敏感词过滤核心算法,参考这篇文章的DFA算法,http://blog.csdn.net/chenssy/article/details/26961957
实现两个类
1. SensitiveWordInit 负责加载初始化敏感词
private String ENCODING = "GBK"; // 字符编码
@SuppressWarnings("rawtypes")
...
分类:
其他好文 时间:
2015-06-03 21:42:05
阅读次数:
140
敏感词、文字过滤是一个网站必不可少的功能,如何设计一个好的、高效的过滤算法是非常有必要的。前段时间我一个朋友(马上毕业,接触编程不久)要我帮他看一个文字过滤的东西,它说检索效率非常慢。我把它程序拿过...
分类:
编程语言 时间:
2015-05-21 15:43:46
阅读次数:
309
public class BadWordFilter { #region 变量 private HashSet hash = new HashSet(); private byte[] fastCheck = new byte[char.MaxValue]; private byte[] fast....
敏感词过滤,国内混的同学看到这个都会会心一笑。其实敏感词过滤,在几乎所有国家都是存在的,只是表现的形式并不完全相同而已。
既然这个功能叫做关键词过滤,那么做在过滤器中,应该是一个好主意。
1、JAVA实现利用过滤器实现敏感信息过滤
过滤器的JAVA代码:
package com.filter;
import java.io.BufferedReader;
import java.io....
分类:
编程语言 时间:
2015-02-05 18:27:22
阅读次数:
246
有很多的数据,更新的频率很低,比如中国行政区划,为避免每次都要从数据库查询,因此可把这些数据放在中,提高系统响应速度。
这种功能可以在很多的地方实现,也可以在过滤器中完成。
我们在上一节说了敏感词过滤器,每一次数据都要读取文件,好像效率稍微低了点,我们把这个加到缓存中吧。
1、JAVA实现利用过滤器实现敏感信息过滤
过滤器的JAVA代码:
package com.filter;
...
分类:
编程语言 时间:
2015-02-05 18:26:53
阅读次数:
193