搜索关键字：分词，搜索到2158个结果！码迷,mamicode.com！

全文检索部署及使用

全文检索全文检索不同于特定字段的模糊查询，使用全文检索的效率更高，并且能够对于中文进行分词处理 haystack：django的一个包，可以方便地对model里面的内容进行索引、搜索，设计为支持whoosh,solr,Xapian,Elasticsearc四种全文检索引擎后端，属于一种全文检索的框 ...

分类：其他好文时间：2019-06-20 09:14:32 阅读次数：114

中文词频统计

中文词频统计 1. 下载一长篇中文小说。 2. 从文件读取待分析文本。 3. 安装并使用jieba进行中文分词。 pip install jieba import jieba ljieba.lcut(text) 4. 更新词库，加入所分析对象的专业词汇。 jieba.add_word('天罡北斗阵' ...

分类：其他好文时间：2019-06-19 19:58:28 阅读次数：129

武林外传可视化

获取到数据之后，首先对用户location做可视化第一步做数据清洗，把里面的数据中文符号全部转为为空格第二步数据做词云，需要过滤停用词，然后分词输入结果这样输出的原因是后面需要用pyechart做数据的词云第三步词云可视化二用户地址可视化用户所在地成都热点图程序脚本：这里需要 ...

分类：其他好文时间：2019-06-19 15:12:29 阅读次数：122

相似文档查找算法之 simHash及其 java 实现

传统的 hash 算法只负责将原始内容尽量均匀随机地映射为一个签名值，原理上相当于伪随机数产生算法。产生的两个签名，如果相等，说明原始内容在一定概率下是相等的；如果不相等，除了说明原始内容不相等外，不再提供任何信息，因为即使原始内容只相差一个字节，所产生的签名也很可能差别极大。从这个意义上来 ...

分类：编程语言时间：2019-06-18 12:02:55 阅读次数：179

搜索引擎 solr

1.创建索引举例子：文档一：solr是基于Lucene开发的企业级搜索引擎技术文档二：Solr是一个独立的企业级搜索应用服务器，Solr是一个高性能，基于Lucene的全文搜索服务器首先经过分词器分词，solr会为分词后的结果（词典）创建索引，然后将索引和文档id列表对应起来，如下图所示： ...

分类：其他好文时间：2019-06-17 11:00:43 阅读次数：99

15.1 自定义分词器

创建自定义分词器测试分词器 DELETE /test_analyzer PUT /test_analyzer { "settings": { "analysis": { "char_filter": { "sign_to_word": { "type": "mapping", "mappings" ...

分类：其他好文时间：2019-06-16 21:36:31 阅读次数：161

NLP之词向量

1.对词用独热编码进行表示的缺点向量的维度会随着句子中词的类型的增大而增大，最后可能会造成维度灾难2、任意两个词之间都是孤立的，仅仅将词符号化，不包含任何语义信息，根本无法表示出在语义层面上词与词之间的相关信息，而这一点是致命的。 2.用向量代表词的好处 3.词嵌入的由来在NLP之分词中提过，o ...

分类：其他好文时间：2019-06-16 20:05:09 阅读次数：206

Elasticsearch合并高亮字段

对于类似于这篇文章中的需求，Elasticsearch实现英文区分大小写搜索，创建了两个采用不同分词器内容相同的字段，实施搜索时，正常如果只有一个搜索条件，直接搜索某一个字段即可，但是如果有多两个搜索条件，比如：有两个搜索框，一个是区分大小写搜索，另外一个时正常的模糊搜索，这时在显示高亮的时候就会有 ...

分类：其他好文时间：2019-06-15 15:52:42 阅读次数：124

Elasticsearch分析器结构组成

在使用ElasticSearch过程中，一般中文使用IK分词器，英文使用默认的分词器即可，但是对于上述分词器满足不了需求的情况下，需要自定义分析器。以下思维导图包含ES分析器的结构和内置的一些组件： ...

分类：其他好文时间：2019-06-15 15:24:28 阅读次数：79

NLP之分词、词向量、预训练篇

不同分词工具原理解析对各种分词工具的介绍，具体参考： http://www.cnblogs.com/en-heng/p/6234006.html 具体参考： https://blog.csdn.net/rav009/article/details/12196623 jieba分词原理解析采用的是 ...

分类：其他好文时间：2019-06-14 22:08:31 阅读次数：1527

共2158条上一页 1 ... 40 41 42 43 44 ... 216 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)