周末空余时间撸了一个敏感词过滤功能,下边记录下实现过程。 敏感词,一方面是你懂的,另一方面是我们自己可能也要过滤一些人身攻击或者广告信息等,具体词库可以google下,有很多。 过滤敏感词,使用简单的循环str_replace是性能很低效的,还会随着词库的增加,性能指数下降,而且简单的替换,不能解决 ...
分类:
Web程序 时间:
2016-07-20 17:53:00
阅读次数:
236
文章转载自:http://www.cnblogs.com/dennisit/archive/2013/04/07/3005847.html 方案一: 基于配置的词典扩充 项目结构图如下:IK分词器还支持通过配置IKAnalyzer.cfg.xml文件来扩充您的专有词典。谷歌拼音词库下载: http: ...
分类:
Web程序 时间:
2016-07-05 20:35:56
阅读次数:
406
具体思路: 1->敏感词库,可从数据库读取,也可以从文件加载. 2->将敏感词转化为gbk编码,因为gbk严格按照字符一个字节,汉字两个字节的格式编码,便于容易切分文字段. 3->将所有敏感词以首个字符[英文一字节,汉字两字节]转换为一个整数,然后按照这个整数给所有敏感词建立索引,索引的value用 ...
分类:
编程语言 时间:
2016-06-25 00:49:55
阅读次数:
461
App Store: Pinyin Comparison 拼音辨别 本人不懂韩文和日文,靠的是谷歌翻译,希望不要被喷 1. 支持韩文和日文 2. 丰富字词库 1. ?? ??? ?? 2. ??? ??? ??? ?? 1.サポート韓国と日本 2.豊富な単語シソーラス App Store: Piny ...
分类:
其他好文 时间:
2016-06-22 10:56:41
阅读次数:
152
IK分词器如果配置成 本人测试切分词可以,但是同义词,扩展词库用不了, 网上查各种资料说IK分词器有个BUG,要自己把jar文件改一下,于是找到IK的源码,里面只有IKAnalyzer的源码,代码如下 自己加了一个IKAnalyzerSolrFactory,代码如下 这样一来就能在配置文件中配置成I ...
分类:
其他好文 时间:
2016-06-04 16:27:30
阅读次数:
1218
最近做情感分析,想研究下具体哪个java分词工具好,于是测试了ANSJ和IKAnalyzer的比较: 都是用了默认值,没有进行添加词库和停用词。 ANSJ的代码:scala调用。 /** * 中文分词 * example : println("segment分词测试") val stopWords ...
分类:
编程语言 时间:
2016-06-01 18:13:12
阅读次数:
3104
安卓版百度输入法的评价: ①百度输入法在用户界面方面: 输入界面最左侧为工具(主题的皮肤,输入的方式,词库的优化,智能的纠错等等)、第二为提供语音的输入、第三是拼音的输入法(9键和26键)、右侧为英文的输入 法 (9键和26键)最右侧是复制粘贴全选等的选择。 ②记住用户的选择 在百度的输入法在功能上 ...
分类:
其他好文 时间:
2016-05-20 13:21:54
阅读次数:
162
敏感词、文字过滤是一个网站必不可少的功能,如何设计一个好的、高效的过滤算法是非常有必要的。前段时间我一个朋友(马上毕业,接触编程不久)要我帮他看一个文字过滤的东西,它说检索效率非常慢。我把它程序拿过来一看,整个过程如下:读取敏感词库、如果HashSet集合中,获取页面上传文字,然后进行匹配。我就想这 ...
分类:
编程语言 时间:
2016-05-19 23:05:40
阅读次数:
307
根据新出台的《新广告法》和广电局61号令,我的客户对电视广告的监管提出了一些新的要求。主要包括:1、区分电视节目和广告内容。2、统计广告中商业广告和公益广告的播出时间、条数。3、商业广告中哪些是违规的。 目前手头有一些广告模板,商业的和公益的;违规词库;知道一些广告播出时在频幕上会插入广告两个字样, ...
分类:
其他好文 时间:
2016-05-19 14:48:19
阅读次数:
194
之前老是有客户说搜索不好用,打错一个字或者加个空格啥的就搜不到东西, 然后就想到了分词搜索,百度查了下分词的大致做法后就开始动手做了, 1.从客户输入以及产品等地方搜集了一些词汇存入词库 2.采用 ‘反向最大匹配’ 测试下来还是能用的,但是用了几天之后发现这种 ‘反向最大匹配’ 并不适合于垂直领域的 ...
分类:
其他好文 时间:
2016-05-17 21:18:46
阅读次数:
304