码迷,mamicode.com
首页 >  
搜索关键字:分词    ( 2158个结果
CRF技能词识别过程
最近在用CRF做未登录技能词识别,虽然艰难,但是感觉很爽,效率非常高。(1)数据准备:选取30000行精语料作为训练数据。每一个br作为一条数据。使用已有的技能词典对数据进行无标注分词。(2)训练数据标注:对分词后的语料进行标注。如果某分词结果在技能词典中,则该词作为技能词进行标注;如果某分词结果不...
分类:其他好文   时间:2015-08-25 21:11:45    阅读次数:146
Elasticsearch:在搜索引擎中如何实现完全匹配查询
本文地址: 在有搜索引擎之前,我们查文档常使用顺序匹配。比如要搜索 "我的祖国是花园",需要在文档中顺序扫描,找到完全匹配的子句。 在有了搜索引擎后,我们对查询语句做的处理就不一样了。我们通常会先分词,然后查找对应的词条索引,最后得到评分由高到低的文档列表。我一度以为没法实现完全匹配了,直到一个硬需求的出现。花了一天时间,把完全匹配用搜索引擎的思维整理出来。 简要描述实现思路...
分类:其他好文   时间:2015-08-25 19:43:17    阅读次数:932
IK分词加入标点符号
IK分词加入标点符号...
分类:其他好文   时间:2015-08-18 21:27:54    阅读次数:133
英文分词的算法和原理
英文分词的算法和原理 根据文档相关性计算公式 TF-IDF:http://lutaf.com/210.htm BM25:http://lutaf.com/211.htm 分词质量对于基于词频的相关性计算是无比重要的 英文(西方语言)语言的基本单位就是单词,所以分词...
分类:编程语言   时间:2015-08-17 06:35:08    阅读次数:273
Elasticsearch添加中文分词
这篇博客我记录在了http://segmentfault.com/a/1190000003101351
分类:其他好文   时间:2015-08-16 21:08:59    阅读次数:162
Coreseek-带中文分词的Sphinx
Sphinx并不支持中文分词,也就不支持中文搜索, Coreseek = Sphinx +MMSEG(中文分词算法)
分类:其他好文   时间:2015-08-16 10:45:01    阅读次数:107
Lucene的中文分词器IKAnalyzer
分词器对英文的支持是非常好的。 一般分词经过的流程: 1)切分关键词 2)去除停用词 3)把英文单词转为小写 但是老外写的分词器对中文分词一般都是单字分词,分词的效果不好。 国人林良益写的IK Analyzer应该是最好的Lucene中文分词器之一,而且随着Lucene的版本更新而不断更...
分类:Web程序   时间:2015-08-16 10:43:15    阅读次数:445
简易智能自动问答机器人
很简易的一个智能自动问答机器人,应用了中文句子分词、多关键词句子匹配技术。 CHATTING body{ background-color:#cccccc; color:#eee; text-align:center; } #dialogDisplay{ position:relative; max-width:600px; ...
分类:其他好文   时间:2015-08-15 15:01:01    阅读次数:193
Lucene.net 从创建索引到搜索的代码范例
关于Lucene.Net的介绍网上已经很多了在这里就不多介绍Lucene.Net主要分为建立索引,维护索引和搜索索引Field.Store的作用是通过全文检查就能返回对应的内容,而不必再通过id去DB中加载。Field.Store.YES:存储字段值(未分词前的字段值)Field.Store.NO:...
分类:Web程序   时间:2015-08-14 18:29:53    阅读次数:144
多线程程序跑久了效率下降分析
最近在写一个搜索引擎,有个中间程序是分析分词结果文件,建立倒排索引。最初写的是单线程的,效率低到无语,于是又改成多线程的了。本以为万事大吉,可是在分析了将近2000文件的时候,效率低的和单线程的没什么区别了。打开任务管理器,线程数显示3(我设置的子线程数量最高为15,加上启动就有的,程序刚运行的时候线程数可以达到20个)。     百度了下,Windows单个程序的线程数是有上限的,一般只能开到...
分类:编程语言   时间:2015-08-12 21:50:07    阅读次数:124
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!