在《solr学习文档之添加分词词库》一文中,我们学习了如何对一个词组进行分词提取,这一章我们将会使用到分词词库,并介绍如何进行高亮展现
在此之前,我们先了解一下高亮的几个参数
hl:是否开启高亮组件,true为开启,false为不开启
hl.fl:需要开启的高亮字段,多个可用逗号隔开
hl.simple.pre:高亮字段前缀
hl.simple.post:高亮字段后缀
(其他的暂不介绍...
分类:
其他好文 时间:
2015-08-06 09:31:23
阅读次数:
132
在上一篇文章中我们学习了solr的快速入门和针对mysql数据库建立索引,今天我们介绍如何为solr添加中文分词
1、 在百度搜索ik-analyzer,找到后下载,我下载的是【IKAnalyzer 2012FF_hf1.zip】,解压后会看到如下目录
2、 把IKAnalyzer2012FF_u1.jar拷贝到webapps下solr的lib文件夹下,把IKAnal...
分类:
其他好文 时间:
2015-08-05 10:32:28
阅读次数:
238
Elasticsearch默认提供的分词器,会把每个汉字分开,而不是我们想要的根据关键词来分词,比如我们更希望 “中国人”,“中国”,“我”这样的分词,因此需要安装中文分词插件IK来实现此功能。elasticsearch-analysis-ik 是一款中文的分词插件,支持自定义词库,具体安装步骤如下...
分类:
其他好文 时间:
2015-07-29 22:52:23
阅读次数:
194
原文链接:http://scikit-learn.github.io/dev/tutorial/basic/tutorial.html章节内容在这个章节中,我们主要介绍关于scikit-learn机器学习词库,并且将给出一个学习样例。机器学习:问题设置通常,一个学习问题是通过一系列的n个样本数据来学习然后尝试预测未知数据的属性。如果每一个样本超过一个单一的数值,例如多维输入(也叫做多维数据),那么它...
分类:
其他好文 时间:
2015-07-20 23:43:35
阅读次数:
174
官方说明地址: ?http://www.coreseek.cn/opensource/mmseg/词典文件所在位置: 本地管理地址:xxx/dict/new_dict.txt【 每次添加新的词,先更新此文件, 然后再把最新的词典文件scp上传到sphinx所在服务器上更新词库】 线上词库配置地址: ...
分类:
其他好文 时间:
2015-07-18 12:11:28
阅读次数:
123
之前一直没用过合成词库这功能,有个同步用户数据的选项,点它后,生成一个文件夹,里面就有当前的一些配置,词库之类的/Users/dfpo/Library/Rime/sync这样我们就得到了一个装着用户数据的文件夹,同样的操作,假如你在公司也有这份数据就可以合并了。把这些词库文件夹放sync下,再点击同...
分类:
系统相关 时间:
2015-07-18 00:17:24
阅读次数:
146
工具javahtmljar使用说明:1、本工具包由北京师范大学计算机系 张人杰 开发制作 基于多叉树的查找,任何问题请联系:alex.zhangrj@hotmail.com2、工具包自带敏感词词库,第一次调用时读入词库,故第一次调用时间可能较长,在类加载后普通pc机上html过滤5000字在80毫秒...
分类:
编程语言 时间:
2015-07-05 15:00:48
阅读次数:
173
如果使用默认的系统管理,默认放在包下面,比较省心,而且在卸载app后不会造成数据残留,但是这样也有一个问题,比如我做一个背单词的软件,那么当用户卸载掉这个app时,他辛辛苦苦下载的单词库也没了...
所以我想到的解决方案,就是把数据库路径改下,不放到包下面,放到SD卡上。仔细看看,还真不容易做,网上有人甚至去更改源码。不过最后还是找到了解决方案:
查看SQLiteOpenHelper源码,会发...
分类:
移动开发 时间:
2015-07-01 12:22:20
阅读次数:
136
原文:让盘古分词支持最新的Lucene.Net 3.0.3好多年没升级过的Lucene.Net最近居然升级了,到了3.0.3后接口发生了很大变化,原来好多分词库都不能用了,所以上次我把MMSeg给修改了一下支持了Lucene.Net 3.0.3(参考《基于MMSeg算法的中文分词类库》)。 然后我知...
分类:
Web程序 时间:
2015-06-26 14:58:45
阅读次数:
139
前面文章中我们实现了本地的词库设计,可以完成本地的查词功能,那么这篇文章主要讲一讲如何通过调用网络的api来实现词典的网络查词功能。词典API的选择基本上市面上做词典软件的公司都有对应的api,比如说有道、金山等等,不过一般都需要api key,有点麻烦,于是乎,我就找了个简单好用的扇贝网API:http://www.shanbay.com/help/developer/api/ 奇怪的是,该api...