闲暇时间写的简易卡片式记单词app。词库是原滋原味的大学综合英语词汇,包含语音,使用卡片式设计。离线词库,随时随地记单词。商店:http://www.windowsphone.com/zh-cn/store/app/%E5%A4%A7%E5%AD%A6%E7%BB%BC%E5%90%88%E8%8B...
分类:
移动开发 时间:
2014-12-15 20:13:46
阅读次数:
171
在较复杂的lucene搜索业务场景下,直接网上下载一个作为项目的分词器,是不够的。那么怎么去评定一个中文分词器的好与差:一般来讲,有两个点;词库和搜索效率,也就是算法。
lucene的倒排列表中,不同的分词单元有不同的PositionIncrementAttribute,如果两个词有着相同位置属性,比如:我定义美国和中国这两个词在倒排列表中是同一个位置,那么搜索美国的话,中国也能出来。这就是同义词搜索原理。
以下代码(用mmseg的 Tokenizer 去切词之后,然后再做同义词):
先自定义...
分类:
Web程序 时间:
2014-11-19 18:47:09
阅读次数:
265
solr 分词词库管理思路大概有以下几种思路:1。 自定义 SolrRequestHandler 由 SolrRequestHandler 来进行对分词器,进行A)词库加载B)动态添加词库 等操作 这样的话,还需要在内存中hold 住所有的词,或者需要引用到分词的jar2. 在自定义分词器中...
分类:
其他好文 时间:
2014-11-10 19:48:26
阅读次数:
170
算法+语料≈NLP这是一个六千万词汇量的分类词库,做HanLP这么久,我逐渐体会到,算法无法解决所有问题,词库也非常重要。通常一个算法可以解决80%的问题,剩下的20%无论怎么调节优化,都是拆东墙补西墙。比如上次我提到的“区人保”被HMM人名识别模块误命中的例子,这个词让HMM来看,“区”作为姓氏,...
分类:
其他好文 时间:
2014-11-08 23:24:08
阅读次数:
474
序)很多时候其实问题很简单,问题在于自己懂得过于肤浅 项目中需要用到一个功能,机器人模拟和人类聊天,玩家说出一句话之后,机器人本能的和他开始聊天,这破B玩意儿我觉得只要有强大的词库和拆分算法,就那么点东西,但是要自己做还真是压力满满的。于是果断的在网上搜索,轻松的找到了这个东西: 这玩意儿给...
分类:
其他好文 时间:
2014-11-08 16:43:42
阅读次数:
196
目标用户:大学生对比软件:搜狗输入法(桌面版)一、功能篇:1.人名输入:尝试了很多人名,发现必应和搜狗两种输入法对于人名的词库是差不多的都很完整,但是输入“wskt”的时候可见必应给出了正确的人名,而搜狗出现的第一个候选词不是我们需要的人名并且没有正确人名的候选词出现。必应略胜。2.地名输入:地名的...
分类:
其他好文 时间:
2014-11-06 21:37:47
阅读次数:
245
前言:【模式总览】——————————by xingoo 模式意图 自定义某种语言后,给定一种文法标准,定义解释器,进行解析。 做过搜索的朋友们可能更了解一些,平时我们搜索所需要的词库,通常就需要用这种方式来实现。 应用场景 1 有复杂的语法分析场景 2 需要高效的解释,胜过快速的效...
分类:
其他好文 时间:
2014-11-05 21:21:48
阅读次数:
284
联网情况:在联网情况下,针对每一次查询,有道词典的反应速度明显比必应词典快得多。据我推测有以下两个原因:有道词典有本地词库而必应词典更多依赖联网。有道词典的服务器在国内而必应的在国外。断网情况:有道词典和必应词典都能较快地识别当前网络连接已经中断的状况,并且都能显示词汇的基本释义。有无鼠标及多平台没...
分类:
其他好文 时间:
2014-11-05 12:14:25
阅读次数:
230
一、百度手机输入法 ①原材料:郑码(安静词库超级郑码群修正版) ②以上词库为极点码表格式,需要将其转化为百度手机输入法支持的格式。 ③用 notepad++ 编辑码表,去掉表头及~,^,!符号。如图: ④用 多多码表编辑器V3.2 将其换化为 QQ码表 格式,选择“菜单→工具→常见码表格式转换”,如...
分类:
其他好文 时间:
2014-11-03 14:16:16
阅读次数:
602