之前由于论文等相关原因,需要一个诗词文字对仗库,苦于手头没有,网上也没有找到较好的定义好的格式。因此,琢磨着自己想办法做一个出来。很显然,做词库的数据源很重要,选来选去,最后决定使用全唐诗作为数据库。至于原因,首先是因为其数据量比较大,诗词覆盖面比较广;其次,由于《全唐诗》中大都是唐宋时期的诗词.....
分类:
数据库 时间:
2015-02-09 20:12:33
阅读次数:
261
算法+语料≈NLP 这是一个六千万词汇量的分类词库,做HanLP这么久,我逐渐体会到,算法无法解决所有问题,词库也非常重要。通常一个算法可以解决80%的问题,剩下的20%无论怎么调节优化,都是拆东墙补西墙。比如上次...
分类:
其他好文 时间:
2015-02-06 00:53:48
阅读次数:
387
1、在一些专业领域中,全文搜索需要定义专业的名词,这里以化学为例来说明自定义词库国内只有搜狗提供公开词库网址是:http://pinyin.sogou.com/dict/有些可以直接下载TXT的,有些则需要自己处理成txt文件,如果能下载txt的则只需要更改一下就可以,如果不能下载,则用其他软件..
分类:
其他好文 时间:
2015-02-03 19:46:19
阅读次数:
401
閱讀英文或寫作時,我們多少對某些生字感到陌生,例如不知道生字意思或用法。要次次拿出厚厚牛津字典查字,未免有點勞師動眾,所以我們會用手機字典快速查字。不過Android
字典多數使用網絡資料庫,讀取需時,而且資料簡單,未有提供詳細解釋。以下介紹的《Colordict》能使用電..
分类:
其他好文 时间:
2015-02-02 12:40:26
阅读次数:
255
NSFileManager中包含了用来查询单词库目录、创建、重命名、删除目录以及获取/设置文件属性的方法(可读性,可编写性等等)。
每个程序都会有它自己的沙盒,通过它你可以阅读/编写文件。写入沙盒的文件在程序的进程中将会保持稳定,即便实在程序更新的情况下。
如下所示,你可以在沙盒中定位文件目录:
//对于错误信息
NSError *error;
// 创建文件管理器
N...
分类:
其他好文 时间:
2015-01-31 16:19:31
阅读次数:
179
IKAnalyzer1.3.4要自定义我们自己的词库,而且我们可以随时新增分词,网上查了一圈没有相关资料,看来只有自己搞定了。观察了下IKAnalyzer分词器的配置文件IKAnalyzer.cfg.xml发现其中有这样一个选项:
,而且作者做了注释说这个就是扩展远程词典的。于是打开IKAnalyzer的源码查看,最后在Dictronary这类下找到这个方法:getRemoteWords。经过查...
分类:
其他好文 时间:
2015-01-23 18:34:17
阅读次数:
232
算法+语料≈NLP这是一个六千万词汇量的分类词库,做HanLP这么久,我逐渐体会到,算法无法解决所有问题,词库也非常重要。通常一个算法可以解决80%的问题,剩下的20%无论怎么调节优化,都是拆东墙补西墙。比如上次我提到的“区人保”被HMM人名识别模块误命中的例子,这个词让HMM来看,“区”作为姓氏,...
分类:
其他好文 时间:
2015-01-15 12:49:18
阅读次数:
330
敏感词过滤SensitivewordFilter.javapackage aaa;import java.util.HashSet;import java.util.Iterator;import java.util.Map;import java.util.Set;import java.util...
分类:
其他好文 时间:
2015-01-07 10:33:43
阅读次数:
217
起源是这样一道题目:
于是想到通过word dict来算一下:
先去下载了中文词库:
.....
分类:
其他好文 时间:
2015-01-06 00:44:09
阅读次数:
139
[OS] kali/Ubuntu1. 安装stardictapt-get install stardict2. 到http://abloz.com/huzheng/stardict-dic/zh_CN/ 下载需要的词库3. 先cd到下载的文件夹。然后 sudo tar -xjvf stardict....
分类:
系统相关 时间:
2014-12-28 11:35:40
阅读次数:
171