搜索关键字：分词，搜索到2158个结果！码迷,mamicode.com！

scws自定义分词库

CleverCode发现scws分词的效率挺高，研究了一下自定义分词库。 1 安装scws 安装详解：http://blog.csdn.net/clevercode/article/details/52204124。 2 没有添加自定义分词库 2.1 php代码 # vim parseWord.php <?php function parse($str) { $cws...

分类：其他好文时间：2016-08-18 16:04:34 阅读次数：379

全文检索基本概念

1.分词全文检索必须要分词，所谓分词就是把一句话切分成一个个单独的词。分词有很多算法，比如自然分词、n-gram分词、字典分词等等。对中文来说没有自然分隔符，一般采用字典分词，再加上对人名、地名的特殊处理，提高分词的准确性。我们使用ik分词组件，ik有两种分词策略：smart策略、max wor ...

分类：其他好文时间：2016-08-18 11:13:13 阅读次数：312

.添加索引和类型，同时设定edgengram分词和charsplit分词

1.添加索引和类型，同时设定edgengram分词和charsplit分词 curl -XPUT 'http://127.0.0.1:9200/userindex/' -d '{ "settings": { "index": { "analysis": { "analyzer": { "charsp... ...

分类：其他好文时间：2016-08-17 15:26:35 阅读次数：317

elasticsearch源数据容量与索引容量的大小比例是怎样的？index索引的容量与什么因素有关？

elasticsearch源数据容量与索引容量的大小比例与很多因素有关，没有一个比较固定的比例。首先，是否存_all有着最大的影响，如果你的es不是拿来做全文检索，那么这个_all可以不用存；其次是_source（是否存原始数据）；最后是对多少个字段分词，多少个字段建索引，使用什么分词..

分类：其他好文时间：2016-08-16 22:07:55 阅读次数：1893

什么是词干化处理

词干化处理：在NLP中，我们对一句话或一个文档分词之后，一般要进行词干化处理。词干化处理就是把一些名词的复数去掉，动词的不同时态去掉等等类似的处理。对于切词得到的英文单词要进行词干化处理，主要包括将名词的复数变为单数和将动词的其他形态变为基本形态。对动词的词干化可以使用 Porter 算法[5] ...

分类：其他好文时间：2016-08-11 15:35:05 阅读次数：540

solr进阶九：solr对数字和单个字符的搜索

solr中配有分词器，但分词器里面有大写转换为小写的过滤器时，数字就会被过滤。比如123中国ABC。123就会被过滤掉了，所以才查1|12|123都会失败。《Solr 数字字符不能搜索的一个问题》这篇博文说得还算详细，我就是学这篇文章的。根据账号来搜索，当账号在数据库中是整型变量时，导入到sol ...

分类：其他好文时间：2016-08-10 18:55:24 阅读次数：989

Elasticsearch 中文分词(elasticsearch-analysis-ik) 安装

由于elasticsearch基于lucene，所以天然地就多了许多lucene上的中文分词的支持，比如 IK, Paoding, MMSEG4J等lucene中文分词原理上都能在elasticsearch上使用。当然前提是有elasticsearch的插件。至于插件怎么开发，这里有一片文章介绍： ...

分类：其他好文时间：2016-08-09 00:06:01 阅读次数：231

中文分词

一周乱谈（第八周） - 中文分词中文分词 NLP（Natural language processing）自然语言处理一直都是比较热门的领域，现在不管是搜索，推荐神马的基本都需要和nlp打交道，而中文的nlp处理的第一步就是分词了，所以中文分词一直扮演者举足轻重的角色。当然了，分词的算法也是层出不 ...

分类：其他好文时间：2016-08-08 00:45:38 阅读次数：195

利用word2vec对关键词进行聚类

1、收集预料自己写个爬虫去收集网页上的数据。使用别人提供好的数据http://www.sogou.com/labs/dl/ca.html 2、对预料进行去噪和分词我们需要content其中的值，通过简单的命令把非content 的标签干掉 cat news_tensite_xml.dat | ...

分类：其他好文时间：2016-08-07 16:51:08 阅读次数：154

一周乱谈（第八周） - 中文分词

中文分词 NLP（Natural language processing）自然语言处理一直都是比较热门的领域，现在不管是搜索，推荐神马的基本都需要和nlp打交道，而中文的nlp处理的第一步就是分词了，所以中文分词一直扮演者举足轻重的角色。当然了，分词的算法也是层出不穷，从最初的字典匹配到后来的统计模 ...

分类：其他好文时间：2016-08-06 20:34:56 阅读次数：182

共2158条上一页 1 ... 139 140 141 142 143 ... 216 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)