阅读目录 回到顶部 1、jieba库基本介绍 (1)、jieba库概述 jieba是优秀的中文分词第三方库 - 中文文本需要通过分词获得单个的词语 - jieba是优秀的中文分词第三方库,需要额外安装 - jieba库提供三种分词模式,最简单只需掌握一个函数 (2)、jieba分词的原理 Jieba ...
分类:
编程语言 时间:
2019-11-03 22:05:59
阅读次数:
183
jieba库是Python中对中文分词效果比较好的一个库,最近正好看到MOOC上嵩天老师的课程,因此也跟着学了下 首先肯定需要安装jieba ,这个很简单,win+r cmd下运行以下代码即可,但是由于PY第三方库很多是国外源提供,速度比较慢,因此可能会出现报错等情况 新手们可以和我一样使用这样的方 ...
分类:
编程语言 时间:
2019-11-03 16:40:55
阅读次数:
71
一.jieba模块基本介绍 jieba是优秀的第三方中文词库 中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程 二.jieba库的使用说明 精确模式:将句子最精确的分开,适合文本分析 ...
分类:
其他好文 时间:
2019-11-01 18:24:16
阅读次数:
385
文章目录 安装 启动 创建core 配置core索引MySQL数据 3.2.1 3.2.2 3.2.3 测试定时更新 五、配置中文分词 SolrJ 操作索引的增、删、查 七、通过SolrJ对MySQL数据库进行全量更新、增量更新 八、索引高亮显示 九、SolrJ读取富文本创建索引 安装 从官网下载S ...
分类:
其他好文 时间:
2019-10-30 19:58:13
阅读次数:
85
需求:爬取哔哩哔哩网页弹幕内容,并将爬取的内容以五角星的形式显示出来 思路: 实现: 使用到的类库,如果没有,需要下载,下载命令: 知识点: request 向对方服务器发送请求 BeautifulSoup 解析爬取的弹幕内容 pandas 分析弹幕数据 jieba 中文分词器,或称为中文词组切片器 ...
分类:
Web程序 时间:
2019-10-28 20:51:02
阅读次数:
147
附加:另一种jieba分词写法: 参考jieba中文分词:https://github.com/fxsjy/jieba ##欢迎讨论 ...
分类:
编程语言 时间:
2019-10-17 01:20:29
阅读次数:
123
朴素贝叶斯应用 机器学习 新浪新闻分类器 本文代码及数据均来自于https://cuijiahua.com/blog/2017/11/ml_5_bayes_2.html 这个例子比较有实践意义,不仅使用了jieba、sklearn,并且其中用到的思想也是很实用的。 jieba "结巴"中文分词:做最 ...
分类:
其他好文 时间:
2019-10-08 19:21:45
阅读次数:
102
Django之使用haystack+whoosh实现搜索功能,本文介绍的是如何通过搜索框来实现搜索功能,比如当我们的商城项目呀搜索商品时,或者论坛项目要搜索帖子时使用。内容包括 全文检索框架和引擎的安装和配置,生成索引文件,使用全文检索,以及使用中文分词包jieba等。 ...
分类:
其他好文 时间:
2019-10-07 11:17:48
阅读次数:
87
[TOC] 前言 在上一篇文章中,我们了解了词向量的相关内容。对于英文语料来说,直接根据空格或者标点即可对词记性划分。而对于中文语料,分词的方法就十分复杂了。之前在概述里提到过,在中文自然语言处理领域,不同的分词方法将使得同一个句子有不同的含义,如: “乒乓球拍/卖了” 和 “乒乓球/拍卖/了” “ ...
分类:
其他好文 时间:
2019-10-02 18:58:39
阅读次数:
85
一、下载安装Apache Solr 8.2.0 下载地址:http://lucene.apache.org/solr/downloads.html 因为是部署部署在windows系统上,所以下载zip压缩包即可。 下载完成后解压出来。 二、启动solr服务 进入solr-7.3.0/bin目录: S ...
分类:
其他好文 时间:
2019-09-27 18:56:22
阅读次数:
187