# 先定义个词典 word_dict = ['我们', '经常', '有','有意见','意见','分歧'] # 滑动窗口的大小 max_len = 5 # 用户的输入 user_input = '我们经常有意见分歧' len(user_input) 结果: 9 前向最大匹配算法的实现 # 前向最大 ...
分类:
编程语言 时间:
2020-01-04 11:07:45
阅读次数:
104
# 导入扩展库import re # 正则表达式库import collections # 词频统计库import numpy as np # numpy数据处理库import jieba # 结巴分词import wordcloud # 词云展示库from PIL import Image # 图 ...
分类:
编程语言 时间:
2020-01-04 11:05:07
阅读次数:
81
/** * * @param keyword 源词汇 * @param smart 是否智能分词 * @return 分词词组(,拼接) */ public static String getKeywords(String keyword, boolean smart) { StringReader... ...
分类:
编程语言 时间:
2020-01-03 17:57:08
阅读次数:
91
可以通过安装elasticsearch的ik分词器插件elasticsearch-analysis-ik来实现分词 1.下载? 官方网站 https://github.com/medcl/elasticsearch-analysis-ik, 告诉你,可以下载源码,然后自己去编译,这样比较麻烦,可以直 ...
分类:
其他好文 时间:
2020-01-02 15:49:02
阅读次数:
66
1.下载?官方网站https://github.com/medcl/elasticsearch-analysis-ik,告诉你,可以下载源码,然后自己去编译,这样比较麻烦,可以直接它的版本库中下载编译好的历史版本https://github.com/medcl/elasticsearch-analysis-ik/releases注意要下载编译好的包,而不是源码包例如得到包elasticsearch
分类:
其他好文 时间:
2020-01-02 09:39:12
阅读次数:
76
本篇文章使用的ES版本是6.6.0,使用的在线安装;本文只是针对一个一个容器进行安装的,当然可以使用Dockerfile将IK做成新的镜像的,这篇文章就不介绍了。 1、进入容器 2、在线下载并安装 注意:版本号要一致,使用的 6.6.0版本; 进入到 plugins 目录可以看到IK分词器已经安装成 ...
分类:
其他好文 时间:
2020-01-01 11:53:20
阅读次数:
123
在前文当中,我们介绍了搜索引擎的大致原理。有错过或者不熟悉的同学,可以点击下方的链接回顾一下前文的内容。 "ML基础——搜索引擎基本原理" 在介绍爬虫部分的时候,我们知道,爬虫在爬取到网页的内容之后,会先进行一些处理。首先要做的就是过滤掉HTML当中的各种标签信息,只保留最原生的网页内容。之后,程序 ...
分类:
编程语言 时间:
2020-01-01 10:19:12
阅读次数:
122
原文:Net Core使用Lucene.Net和盘古分词器 实现全文检索 Lucene.net Lucene.net是Lucene的.net移植版本,是一个开源的全文检索引擎开发包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,是一个高性能、可伸缩的文本... ...
分类:
Web程序 时间:
2020-01-01 09:39:07
阅读次数:
325
Lucene.net Lucene.net是Lucene的.net移植版本,是一个开源的全文检索引擎开发包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,是一个高性能、可伸缩的文本搜索引擎库。它的功能就是负责将文本数据按照某种分词算法进行切词,分词后的结 ...
分类:
Web程序 时间:
2019-12-31 20:12:39
阅读次数:
144
准备篇 安装: "Elasticsearch" 连接: "ElasticSearch Head" 建立索引: "详见文末" 1. 安装依赖 2. 建立连接 3. 写入数据 4. 批量写入 5. 根据id查询 6. 查询全部 7. 按条件搜索 附录 自定义索引语句(指定分词方式) ...
分类:
编程语言 时间:
2019-12-31 18:32:17
阅读次数:
157