搜索关键字：分词，搜索到2158个结果！码迷,mamicode.com！

jieba模块基本介绍

一.jieba模块基本介绍 jieba是优秀的第三方中文词库中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程二.jieba库的使用说明精确模式：将句子最精确的分开，适合文本分析 ...

分类：其他好文时间：2019-11-01 18:24:16 阅读次数：385

Idea的tab设置错误使Ansj加载自定义词典时无效

在使用Anjs分词，自定义用户词典时需要注意自定词典词条的空白处是 Tab ，但是在Idea中输入Tab时，默认的是四个空格点击将其改为tab即可，如图所示。 ...

分类：其他好文时间：2019-10-31 16:09:06 阅读次数：94

Python分布式爬虫必学框架Scrapy打造搜索引擎学习教程

Python分布式爬虫打造搜索引擎Scrapy精讲—用Django实现搜索的自动补全功能 elasticsearch(搜索引擎)提供了自动补全接口 1、创建搜索自动补全字段suggest自动补全需要用到一个字段名称为suggest类型为Completion类型的一个字段所以我们需要用将前面的elas ...

分类：编程语言时间：2019-10-31 15:00:00 阅读次数：235

solr简明教程

文章目录安装启动创建core 配置core索引MySQL数据 3.2.1 3.2.2 3.2.3 测试定时更新五、配置中文分词 SolrJ 操作索引的增、删、查七、通过SolrJ对MySQL数据库进行全量更新、增量更新八、索引高亮显示九、SolrJ读取富文本创建索引安装从官网下载S ...

分类：其他好文时间：2019-10-30 19:58:13 阅读次数：85

一文让你轻松了解全文检索

全文检索技术被广泛的应用于搜索引擎，查询检索等领域。我们在网络上的大部分搜索服务都用到了全文检索技术。对于数据量大、数据结构不固定的数据可采用全文检索方式搜索，比如百度、Google等搜索引擎、论坛站内搜索、电商网站站内搜索等。

分类：其他好文时间：2019-10-30 18:38:35 阅读次数：109

Windows上安装ElasticSearch7的IK分词器

首先IK分词器和ES版本一定要严格对应，下面是版本对照表 IK分词器下载地址 https://github.com/medcl/elasticsearch-analysis-ik/releases 我安装的是ES7.3.2（Windows上安装ElasticSearch7），所以下载IK分词器V7. ...

分类：Windows程序时间：2019-10-30 18:06:41 阅读次数：279

jieba分词基础知识

安装：pip install jieba 导包：import jieba 精确模式：试图将句子最精确地切开，适合文本分析(很像人类一样去分词) jieba.cut(字符串) --> 返回生成器 jieba.lcut(字符串) --> 返回列表全模式：把句子中所有的可以成词的词语都扫描出来，速度非常 ...

分类：其他好文时间：2019-10-29 21:43:28 阅读次数：112

03 爬虫实例-获取网页弹幕内容

需求：爬取哔哩哔哩网页弹幕内容,并将爬取的内容以五角星的形式显示出来思路：实现：使用到的类库,如果没有,需要下载，下载命令：知识点： request 向对方服务器发送请求 BeautifulSoup 解析爬取的弹幕内容 pandas 分析弹幕数据 jieba 中文分词器,或称为中文词组切片器 ...

分类：Web程序时间：2019-10-28 20:51:02 阅读次数：147

jieba库的基本介绍及爬虫基本操作

jieba库基本介绍 jieba库的安装 pip install jieba (cmd命令行) jieba分词的三种模式精确模式、全模式、搜索引擎模式精确模式：把文本精确的切分开，不存在冗余单词全模式：把文本中所有可能的词语都扫描出来，有冗余搜索引擎模式：在精确模式基础上，对长词再次切分爬 ...

分类：其他好文时间：2019-10-28 20:48:11 阅读次数：80

结巴分词与词云，简单爬虫——10.28 (python)

bilibili弹幕词云美国历史词云结巴分词 import jieba txt=" **** " 精确模式：全模式：搜索模式： res = jieba.cut(txt) res =jieba.cut(txt ,cut_all=True) res=jieba.cut_for_search(tx ...

分类：编程语言时间：2019-10-28 19:18:58 阅读次数：156

共2158条上一页 1 ... 29 30 31 32 33 ... 216 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)