前面已经对”IK中文分词器“有了简单的了解: 但是可以发现不是对所有的词都能很好的区分,比如: 逼格这个词就没有分出来。 词库 实际上IK分词器也是根据一些词库来进行分词的,我们可以丰富这个词库。 IK分词器(IK Analysis for Elasticsearch)给了我们一个基本的配置: ht ...
分类:
其他好文 时间:
2017-09-27 11:31:31
阅读次数:
1238
Java 敏感词过滤,Java 敏感词替换,Java 敏感词工具类 ©Copyright 蕃薯耀 2017年9月25日 http://www.cnblogs.com/fanshuyao/ 一、问题描述 很多对外网站的某些内容都需要过滤敏感词,避免政治与色@情上的问题。 二、解决方案 使用词库进行匹配 ...
分类:
编程语言 时间:
2017-09-25 11:41:19
阅读次数:
200
IK分词器就是一款中国人开发的,扩展性很好的中文分词器,它支持扩展词库,可以自己定制分词项,这对中文分词无疑是友好的。 jar包下载链接:http://pan.baidu.com/s/1o85I15o 密码:p82g下载好之后,将IK对应的jar复制到项目的D:\tomcat\webapps\sol ...
分类:
其他好文 时间:
2017-08-23 20:03:31
阅读次数:
431
敏感词、文字过滤是一个网站必不可少的功能,如何设计一个好的、高效的过滤算法是非常有必要的。前段时间我一个朋友(马上毕业,接触编程不久)要我帮他看一个文字过滤的东西,它说检索效率非常慢。我把它程序拿过来一看,整个过程如下:读取敏感词库、如果HashSet集合中,获取页面上传文字,然后进行匹配。我就想这 ...
分类:
编程语言 时间:
2017-08-12 22:50:31
阅读次数:
327
PHP实现敏感词过滤系统 安装说明 安装PHP扩展 trie_filter,安装教程 http://blog.41ms.com/post/39.html 安装PHP扩展 swoole,安装教程 http://www.swoole.com/ 代码说明 1、敏感词库维护更新脚本: reload_dict ...
分类:
Web程序 时间:
2017-08-10 13:42:52
阅读次数:
309
下面以一个电子英汉词典程序(以下简称电子词典)为例,应用双向循环链表。分离数据结构,可以使逻辑代码独立于数据结构操作代码,程序结构更清晰,代码更简洁;电子词典的增、删、查、改操作分别对应于链表的插入、删除、查找、查找和获取链表元素操作。 在程序初始化时,除了初始化链表,还要将保存在文件中的词库加载到 ...
分类:
编程语言 时间:
2017-07-30 20:03:36
阅读次数:
245
这是我们做的一个小作业,不多说 直接附上我写的代码: 效果就是按照词库中的词将一段语句分割开来。 附上词库的位置: https://pan.baidu.com/s/1pLBKer5 ...
分类:
编程语言 时间:
2017-07-23 10:13:32
阅读次数:
203
static void Main(string[] args) { //把123转换为:壹贰叁。Dictionary //定义一个数组表示相关词库 string str = "1一 2二 3三 4四 5五 6六 7七 8八 9九"; //声明一个散列集合用于存储词库 ... ...
分类:
其他好文 时间:
2017-07-20 15:28:26
阅读次数:
180
搜狗拼音输入法8.5 正式版例行更新!最新字母代号为e,详细版本号v8.5.0.1322;新版颜文字大改版,优化智能模糊音、输入统计。搜狗拼音输入法是电脑装机必备软件,版本有传统版和智慧版之分,其打字超准、词库超大、速度飞快、外观漂亮,因此使得输入操作变得事半功倍。精简的版本用着舒适! zd423、 ...
分类:
其他好文 时间:
2017-07-06 19:03:49
阅读次数:
309
因为sunpinyin词库一大就会卡,因此需要自己添加一个脚本给sunpinyin加速。 加速的原理就是把词库添加到内存,现在内存都这么大,根本不在乎这么几兆,当然输入体验更重要啦~ 首先先建一个脚本实现把词库放到内存中的功能,脚本就取名为sunpinyin_speed_up吧。 #!/bin/sh ...
分类:
其他好文 时间:
2017-07-01 21:50:40
阅读次数:
220