码迷,mamicode.com
首页 > 其他好文 > 详细

jieba库的使用

时间:2020-05-31 18:11:27      阅读:429      评论:0      收藏:0      [点我收藏+]

标签:搜索   存在   需要   一个   模式   add   print   自定义   想去   

  • jieba是python的第三方库,使用jieba库需要先安装。jieba是一个中文分词库,可以根据所给的中文句子,提取出可能的词组
  • jieba库分词依靠词库。利用中文词库,确定汉字之间的关联概率。概率大的组成词组,形成分词效果。除了分词,用户还可以添加自定义的词组
  • jieba提供了三种分词模式,精确模式、全模式和搜索引擎模式

安装jieba库,在命令行中输入以下语句就可以安装,前提是安装了python和pip

pip install jieba

jieba库常用函数有四个,分别对应三种分词模式和一种向词库添加新词的功能

1、lcut(s)
精确模式,返回一个列表类型的分词结果,不存在冗余词

import jieba
str="世界那么大,我想去看看"
s=jieba.lcut(str)
print(s)

运行结果:

[‘世界‘, ‘那么‘, ‘大‘, ‘,‘, ‘我‘, ‘想‘, ‘去‘, ‘看看‘]

2、lcut(s,cut_all=True)
全模式,返回一个列表类型分词结果,存在冗余。

import jieba
str="世界那么大,我想去看看"
s=jieba.lcut(str,cut_all=True)
print(s)

运行结果:

[‘世界‘, ‘那么‘, ‘大‘, ‘,‘, ‘我‘, ‘想去‘, ‘看看‘]

3、lcut_for_search(s)
搜索引擎模式,返回一个列表类型的分词结果,存在肉哦能够与。是在精确模式的基础上,对长词再次划分

import jieba
str="世界那么大,我想去看看"
s=jieba.lcut_for_search(str)
print(s)

运行结果:

[‘世界‘, ‘那么‘, ‘大‘, ‘,‘, ‘我‘, ‘想‘, ‘去‘, ‘看看‘]

4、add_word(w)
向分词词典中添加新词w

import jieba
str="世界那么大,我想去看看"
s1=jieba.lcut(str)
print(s1)                            #添加分词前的分词效果
jieba.add_word(‘世界那么‘)
s2=jieba.lcut(str)               
print(s2)                            #添加分词的后的分词效果

运行结果:

[‘世界‘,‘那么‘, ‘大‘, ‘,‘, ‘我‘, ‘想‘, ‘去‘, ‘看看‘]
[‘世界那么‘, ‘大‘, ‘,‘, ‘我‘,‘想‘,‘去‘, ‘看看‘]

jieba库的使用

标签:搜索   存在   需要   一个   模式   add   print   自定义   想去   

原文地址:https://www.cnblogs.com/xjfyt0129/p/13019980.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!