1.在github上对于jieba的介绍是非常全的,以后一定养成一个看官网的习惯!!学英语啊,学英语 中文分词是中文NLP的第一步,一个优秀的分词系统取决于足够的语料和完善的模型,很多机构和公司也都会开发和维护自己的分词系统,虽然jieba分词的性能并不是最优秀的,但它开源免费、使用简单、功能丰富, ...
分类:
其他好文 时间:
2020-06-25 23:03:03
阅读次数:
59
一、安装搜索框架、引擎、分词库 pip install whoosh django-haystack jieba 二、配置 注册haystack框架: 配置搜索引擎、索引文件路径、自动更新索引文件: HAYSTACK_CONNECTIONS = { 'default': { 'ENGINE': 'h ...
分类:
其他好文 时间:
2020-06-18 01:57:29
阅读次数:
89
分词 关键词提取 停用词 stop_word.csv ...
分类:
编程语言 时间:
2020-05-06 01:37:38
阅读次数:
74
结巴分词下载链接(官网下载实在太慢了) 链接:https://pan.baidu.com/s/1FdVvcvy7ZBGOOWJjX2CfRA 提取码:tus1 安装过程 1. 从上述链接下载压缩包并解压 2. 将解压后的压缩包放到安装Anaconda目录的pkgs路径下,我的为 3. 打开Anaco ...
分类:
其他好文 时间:
2020-04-10 00:07:23
阅读次数:
284
1、jieba库基本介绍 (1)、jieba库概述 jieba是优秀的中文分词第三方库 - 中文文本需要通过分词获得单个的词语 - jieba是优秀的中文分词第三方库,需要额外安装 - jieba库提供三种分词模式,最简单只需掌握一个函数 (2)、jieba分词的原理 Jieba分词依靠中文词库 - ...
分类:
编程语言 时间:
2020-04-07 12:20:16
阅读次数:
82
import jieba path = 'C:\\Users\\Administrator\\Desktop\\3国演义.txt' text = open(path,'r',encoding='utf-8').read() words = jieba.lcut(text) excludes = [' ...
分类:
其他好文 时间:
2020-04-07 09:31:11
阅读次数:
75
安装: cmd模式下输入 pip install jieba anaconda对应环境 conda install jieba 分词原理: Jieba分词依靠中文词库 -利用一个中文词库,确定汉字之间的关联概率 -汉字间概率大的组成词组,形成分词结果 -除了分词,用户还可以添加自定义的词组 jieb ...
分类:
其他好文 时间:
2020-03-28 18:10:53
阅读次数:
563
今天采用jieba分词,和kmains算法对数据库中的关键词进行了切分以及矩阵化,并且通过算法对其进行了聚类 最终聚类的结果为:(第一行代表的是关键词的行数,第二行代表所划分的类) 然后对用一个树图的形式,对数据进行了可视化展示 结果如图: ...
分类:
其他好文 时间:
2020-03-20 20:37:35
阅读次数:
66
概述: 制作词云的步骤: 1、从文件中读取数据 2、根据数据追加在一个字符串里面,然后用jieba分词器将评论分开 3、设置WordCloud词云参数 4、保存最后的结果 数据: "使用爬取的豆瓣影评数据" 第一步:引入依赖库 第二步:读取数据 第三步:解析数据并保存 效果图: 模型: 效果: 源代 ...
分类:
编程语言 时间:
2020-02-26 21:17:28
阅读次数:
122
输入 输入1: 本文章采用“python实现中文文档jieba分词和分词结果写入excel文件”文章中输出的两个关于正面中文评价、负面中文评价的excel表格作为输入。 输入2: 一些文档分词后得到的字符串列表。 输出 输出1:根据输入1,训练得到的逻辑回归模型。 输出2:根据输入2和输出1得到的模 ...
分类:
其他好文 时间:
2020-02-15 23:31:15
阅读次数:
113