import jieba txt = open("聊斋志异白话简写版.txt", "r", encoding='utf-8').read() words = jieba.lcut(txt) # 使用精确模式对文本进行分词 counts = {} # 通过键值对的形式存储词语及其出现的次数 for w ...
分类:
其他好文 时间:
2020-11-20 11:24:38
阅读次数:
3
1 import jieba 2 3 txt = open("D:\\西游记.txt", "r", encoding='gb18030').read() 4 words = jieba.lcut(txt) # 使用精确模式对文本进行分词 5 counts = {} # 通过键值对的形式存储词语及其出 ...
分类:
其他好文 时间:
2020-11-19 13:02:49
阅读次数:
32
import jieba excludes = {"什么","一个","我们","那里","你们","如今","说道","知道","起来","姑娘","这里","出来","他们","众人","自己", "一面","只见","怎么",&quo ...
分类:
其他好文 时间:
2020-11-19 12:52:42
阅读次数:
7
import jieba txt = open("D:\\西游记.txt", "r", encoding='utf-8').read() words = jieba.lcut(txt) # 使用精确模式对文本进行分词 counts = {} # 通过键值对的形式存储词语及其出现的次数 for wor ...
分类:
其他好文 时间:
2020-11-19 12:43:23
阅读次数:
12
import jiebafrom collections import Counterimport matplotlib.pyplot as pltimport numpy as np class HlmNameCount(): # 此函数用于绘制条形图 def showNameBar(self,n ...
分类:
其他好文 时间:
2020-11-19 12:42:20
阅读次数:
10
1.倒排索引 搜索引擎中存储的是倒排索引,就是分好的词,和词语文章的关联 事先把文章使用分词打散,以词为依据,标记清楚对应的文章的编号 查询时 把查询的语句也进行分词,然后根据分词,找到那些文章中包含了这些词 2.django创建全文索引的过程 1.django中提供的是结构化数据(mysql中) ...
分类:
其他好文 时间:
2020-11-17 12:13:16
阅读次数:
6
继续回答星球水友提问。沈哥,我们有个业务,类似于“标题分词检索”,并发量非常大,大概20W次每秒,数据量不是很大,大概500W级别,而且数据不会频繁更新,平均每天更新一次,请问有什么好的方案么?这是一个典型的,短文本分词搜索的问题,简单聊聊自己的经验。常见的文本检索方案有哪些?(1)数据库LIKE法将标题数据存放在数据库中,使用like来查询,方案非常简单,能支持简单的模糊搜索,但不支持分词。画外
分类:
其他好文 时间:
2020-11-10 11:31:19
阅读次数:
7
创建容器elasticsearch docker run --name elasticsearch -p 9200:9200 -p 9300:9300 -e "discovery.type=single-node" -d elasticsearch:7.2.0 安装analysis-ik中文分词插件 ...
分类:
其他好文 时间:
2020-11-06 02:51:09
阅读次数:
32
面试官:想了解你对基础概念的认知。 解答:通俗解释一下就可以。 传统的我们的检索是通过文章,逐个遍历找到对应关键词的位置。 而倒排索引,是通过分词策略,形成了词和文章的映射关系表,这种词典+映射表 即为倒排索引。 有了倒排索引,就能实现 o(1)时间复杂度的效率检索文章了,极大的提高了 检索效率。 ...
分类:
其他好文 时间:
2020-10-30 12:35:32
阅读次数:
21
1.搜索引擎工作原理 1.倒排索引 搜索引擎中存储的是倒排索引,就是分好的词,和词语文章的关联 事先把文章使用分词打散,以词为依据,标记清楚对应的文章的编号 查询时: 把查询的语句也进行分词,然后根据分词,找到那些文章中包含了这些词 2.django创建全文索引的过程 1.django中提供的是结构 ...
分类:
其他好文 时间:
2020-10-19 22:47:05
阅读次数:
18