最近在用CRF做未登录技能词识别,虽然艰难,但是感觉很爽,效率非常高。(1)数据准备:选取30000行精语料作为训练数据。每一个br作为一条数据。使用已有的技能词典对数据进行无标注分词。(2)训练数据标注:对分词后的语料进行标注。如果某分词结果在技能词典中,则该词作为技能词进行标注;如果某分词结果不...
分类:
其他好文 时间:
2015-08-25 21:11:45
阅读次数:
146
本文地址:
在有搜索引擎之前,我们查文档常使用顺序匹配。比如要搜索 "我的祖国是花园",需要在文档中顺序扫描,找到完全匹配的子句。
在有了搜索引擎后,我们对查询语句做的处理就不一样了。我们通常会先分词,然后查找对应的词条索引,最后得到评分由高到低的文档列表。我一度以为没法实现完全匹配了,直到一个硬需求的出现。花了一天时间,把完全匹配用搜索引擎的思维整理出来。
简要描述实现思路...
分类:
其他好文 时间:
2015-08-25 19:43:17
阅读次数:
932
英文分词的算法和原理 根据文档相关性计算公式 TF-IDF:http://lutaf.com/210.htm BM25:http://lutaf.com/211.htm 分词质量对于基于词频的相关性计算是无比重要的 英文(西方语言)语言的基本单位就是单词,所以分词...
分类:
编程语言 时间:
2015-08-17 06:35:08
阅读次数:
273
这篇博客我记录在了http://segmentfault.com/a/1190000003101351
分类:
其他好文 时间:
2015-08-16 21:08:59
阅读次数:
162
Sphinx并不支持中文分词,也就不支持中文搜索, Coreseek = Sphinx +MMSEG(中文分词算法)
分类:
其他好文 时间:
2015-08-16 10:45:01
阅读次数:
107
分词器对英文的支持是非常好的。 一般分词经过的流程: 1)切分关键词 2)去除停用词 3)把英文单词转为小写 但是老外写的分词器对中文分词一般都是单字分词,分词的效果不好。 国人林良益写的IK Analyzer应该是最好的Lucene中文分词器之一,而且随着Lucene的版本更新而不断更...
分类:
Web程序 时间:
2015-08-16 10:43:15
阅读次数:
445
很简易的一个智能自动问答机器人,应用了中文句子分词、多关键词句子匹配技术。
CHATTING
body{
background-color:#cccccc;
color:#eee;
text-align:center;
}
#dialogDisplay{
position:relative;
max-width:600px;
...
分类:
其他好文 时间:
2015-08-15 15:01:01
阅读次数:
193
关于Lucene.Net的介绍网上已经很多了在这里就不多介绍Lucene.Net主要分为建立索引,维护索引和搜索索引Field.Store的作用是通过全文检查就能返回对应的内容,而不必再通过id去DB中加载。Field.Store.YES:存储字段值(未分词前的字段值)Field.Store.NO:...
分类:
Web程序 时间:
2015-08-14 18:29:53
阅读次数:
144
最近在写一个搜索引擎,有个中间程序是分析分词结果文件,建立倒排索引。最初写的是单线程的,效率低到无语,于是又改成多线程的了。本以为万事大吉,可是在分析了将近2000文件的时候,效率低的和单线程的没什么区别了。打开任务管理器,线程数显示3(我设置的子线程数量最高为15,加上启动就有的,程序刚运行的时候线程数可以达到20个)。
百度了下,Windows单个程序的线程数是有上限的,一般只能开到...
分类:
编程语言 时间:
2015-08-12 21:50:07
阅读次数:
124