码迷,mamicode.com
首页 >  
搜索关键字:词库    ( 312个结果
用php实现一个敏感词过滤功能
周末空余时间撸了一个敏感词过滤功能,下边记录下实现过程。 敏感词,一方面是你懂的,另一方面是我们自己可能也要过滤一些人身攻击或者广告信息等,具体词库可以google下,有很多。 过滤敏感词,使用简单的循环str_replace是性能很低效的,还会随着词库的增加,性能指数下降,而且简单的替换,不能解决 ...
分类:Web程序   时间:2016-07-20 17:53:00    阅读次数:236
Lucene使用IKAnalyzer分词实例 及 IKAnalyzer扩展词库
文章转载自:http://www.cnblogs.com/dennisit/archive/2013/04/07/3005847.html 方案一: 基于配置的词典扩充 项目结构图如下:IK分词器还支持通过配置IKAnalyzer.cfg.xml文件来扩充您的专有词典。谷歌拼音词库下载: http: ...
分类:Web程序   时间:2016-07-05 20:35:56    阅读次数:406
C++ 简单中文敏感词检测工具类
具体思路: 1->敏感词库,可从数据库读取,也可以从文件加载. 2->将敏感词转化为gbk编码,因为gbk严格按照字符一个字节,汉字两个字节的格式编码,便于容易切分文字段. 3->将所有敏感词以首个字符[英文一字节,汉字两字节]转换为一个整数,然后按照这个整数给所有敏感词建立索引,索引的value用 ...
分类:编程语言   时间:2016-06-25 00:49:55    阅读次数:461
Pinyin Comparison 拼音辨别 V1.2.1
App Store: Pinyin Comparison 拼音辨别 本人不懂韩文和日文,靠的是谷歌翻译,希望不要被喷 1. 支持韩文和日文 2. 丰富字词库 1. ?? ??? ?? 2. ??? ??? ??? ?? 1.サポート韓国と日本 2.豊富な単語シソーラス App Store: Piny ...
分类:其他好文   时间:2016-06-22 10:56:41    阅读次数:152
IK分词器 整合solr4.7 含同义词、切分词、停止词
IK分词器如果配置成 本人测试切分词可以,但是同义词,扩展词库用不了, 网上查各种资料说IK分词器有个BUG,要自己把jar文件改一下,于是找到IK的源码,里面只有IKAnalyzer的源码,代码如下 自己加了一个IKAnalyzerSolrFactory,代码如下 这样一来就能在配置文件中配置成I ...
分类:其他好文   时间:2016-06-04 16:27:30    阅读次数:1218
java分词工具-ANSJ与IKAnalyzer比较分析
最近做情感分析,想研究下具体哪个java分词工具好,于是测试了ANSJ和IKAnalyzer的比较: 都是用了默认值,没有进行添加词库和停用词。 ANSJ的代码:scala调用。 /** * 中文分词 * example : println("segment分词测试") val stopWords ...
分类:编程语言   时间:2016-06-01 18:13:12    阅读次数:3104
课下作业
安卓版百度输入法的评价: ①百度输入法在用户界面方面: 输入界面最左侧为工具(主题的皮肤,输入的方式,词库的优化,智能的纠错等等)、第二为提供语音的输入、第三是拼音的输入法(9键和26键)、右侧为英文的输入 法 (9键和26键)最右侧是复制粘贴全选等的选择。 ②记住用户的选择 在百度的输入法在功能上 ...
分类:其他好文   时间:2016-05-20 13:21:54    阅读次数:162
Java实现敏感词过滤(转)
敏感词、文字过滤是一个网站必不可少的功能,如何设计一个好的、高效的过滤算法是非常有必要的。前段时间我一个朋友(马上毕业,接触编程不久)要我帮他看一个文字过滤的东西,它说检索效率非常慢。我把它程序拿过来一看,整个过程如下:读取敏感词库、如果HashSet集合中,获取页面上传文字,然后进行匹配。我就想这 ...
分类:编程语言   时间:2016-05-19 23:05:40    阅读次数:307
关于视频内容分析,区分节目和广告
根据新出台的《新广告法》和广电局61号令,我的客户对电视广告的监管提出了一些新的要求。主要包括:1、区分电视节目和广告内容。2、统计广告中商业广告和公益广告的播出时间、条数。3、商业广告中哪些是违规的。 目前手头有一些广告模板,商业的和公益的;违规词库;知道一些广告播出时在频幕上会插入广告两个字样, ...
分类:其他好文   时间:2016-05-19 14:48:19    阅读次数:194
垂直细分领域的分词搜索
之前老是有客户说搜索不好用,打错一个字或者加个空格啥的就搜不到东西, 然后就想到了分词搜索,百度查了下分词的大致做法后就开始动手做了, 1.从客户输入以及产品等地方搜集了一些词汇存入词库 2.采用 ‘反向最大匹配’ 测试下来还是能用的,但是用了几天之后发现这种 ‘反向最大匹配’ 并不适合于垂直领域的 ...
分类:其他好文   时间:2016-05-17 21:18:46    阅读次数:304
312条   上一页 1 ... 17 18 19 20 21 ... 32 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!