搜索关键字：分词，搜索到2158个结果！码迷,mamicode.com！

CRF技能词识别过程

最近在用CRF做未登录技能词识别，虽然艰难，但是感觉很爽，效率非常高。（1）数据准备：选取30000行精语料作为训练数据。每一个br作为一条数据。使用已有的技能词典对数据进行无标注分词。（2）训练数据标注：对分词后的语料进行标注。如果某分词结果在技能词典中，则该词作为技能词进行标注；如果某分词结果不...

分类：其他好文时间：2015-08-25 21:11:45 阅读次数：146

Elasticsearch：在搜索引擎中如何实现完全匹配查询

本文地址：在有搜索引擎之前，我们查文档常使用顺序匹配。比如要搜索 "我的祖国是花园"，需要在文档中顺序扫描，找到完全匹配的子句。在有了搜索引擎后，我们对查询语句做的处理就不一样了。我们通常会先分词，然后查找对应的词条索引，最后得到评分由高到低的文档列表。我一度以为没法实现完全匹配了，直到一个硬需求的出现。花了一天时间，把完全匹配用搜索引擎的思维整理出来。简要描述实现思路...

分类：其他好文时间：2015-08-25 19:43:17 阅读次数：932

IK分词加入标点符号

IK分词加入标点符号...

分类：其他好文时间：2015-08-18 21:27:54 阅读次数：133

英文分词的算法和原理

英文分词的算法和原理根据文档相关性计算公式 TF-IDF:http://lutaf.com/210.htm BM25:http://lutaf.com/211.htm 分词质量对于基于词频的相关性计算是无比重要的英文(西方语言）语言的基本单位就是单词，所以分词...

分类：编程语言时间：2015-08-17 06:35:08 阅读次数：273

Elasticsearch添加中文分词

这篇博客我记录在了http://segmentfault.com/a/1190000003101351

分类：其他好文时间：2015-08-16 21:08:59 阅读次数：162

Coreseek-带中文分词的Sphinx

Sphinx并不支持中文分词,也就不支持中文搜索, Coreseek = Sphinx +MMSEG(中文分词算法)

分类：其他好文时间：2015-08-16 10:45:01 阅读次数：107

Lucene的中文分词器IKAnalyzer

分词器对英文的支持是非常好的。一般分词经过的流程： 1）切分关键词 2）去除停用词 3）把英文单词转为小写但是老外写的分词器对中文分词一般都是单字分词，分词的效果不好。国人林良益写的IK Analyzer应该是最好的Lucene中文分词器之一，而且随着Lucene的版本更新而不断更...

分类：Web程序时间：2015-08-16 10:43:15 阅读次数：445

简易智能自动问答机器人

很简易的一个智能自动问答机器人，应用了中文句子分词、多关键词句子匹配技术。 CHATTING body{ background-color:#cccccc; color:#eee; text-align:center; } #dialogDisplay{ position:relative; max-width:600px; ...

分类：其他好文时间：2015-08-15 15:01:01 阅读次数：193

Lucene.net 从创建索引到搜索的代码范例

关于Lucene.Net的介绍网上已经很多了在这里就不多介绍Lucene.Net主要分为建立索引，维护索引和搜索索引Field.Store的作用是通过全文检查就能返回对应的内容，而不必再通过id去DB中加载。Field.Store.YES:存储字段值（未分词前的字段值）Field.Store.NO:...

分类：Web程序时间：2015-08-14 18:29:53 阅读次数：144

多线程程序跑久了效率下降分析

最近在写一个搜索引擎，有个中间程序是分析分词结果文件，建立倒排索引。最初写的是单线程的，效率低到无语，于是又改成多线程的了。本以为万事大吉，可是在分析了将近2000文件的时候，效率低的和单线程的没什么区别了。打开任务管理器，线程数显示3（我设置的子线程数量最高为15，加上启动就有的，程序刚运行的时候线程数可以达到20个）。百度了下，Windows单个程序的线程数是有上限的，一般只能开到...

分类：编程语言时间：2015-08-12 21:50:07 阅读次数：124

共2158条上一页 1 ... 163 164 165 166 167 ... 216 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)