jieba模块基本介绍

时间：2019-11-01 18:24:16 阅读：385 评论：0 收藏：0 [点我收藏+]

标签：int tokenizer 三种模式 head 项目 tor The temp 基础

一.jieba模块基本介绍

1.1 jieba模块的作用

jieba是优秀的第三方中文词库

中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程

1.2 jieba模块的安装

pip install jieba  #cmd命令行

二.jieba库的使用说明

2.1 jieba分词的三种模式

精确模式：将句子最精确的分开，适合文本分析(无冗余)

全模式：句子中所有可以成词的词语都扫描出来，速度快，不能解决歧义(有冗余)

搜索引擎模式：在精确的基础上，对长词再次切分，提高召回率(有冗余)

三.jieba分词的使用方法

3.1 三种模式的使用方法

#调用jieba词库 import jieba
#精确模式
jieba.cut(文件/文本等内容) #获取可迭代对象
jieba.lcut()
#全模式
jieba.cut(cut_all=True) #获取可迭代对象
jieba.lcut(cut_all=True)
#搜索引擎模式
jieba.cut_for_search()  # 获取可迭代对象
jieba.lcut_for_search()

3.2 jieba.cut与jieba.lcut的区别

jieba.cut生成的是一个生成器，generator，也就是可以通过for循环来取里面的每一个词。

import jieba
txt = ‘狗比胡晨阳‘
print(jieba.cut(txt))
#打印的内容
<generator object Tokenizer.cut at 0x000002004F5B8348>

jieba.lcut 直接生成的就是一个list

import jieba
txt = ‘狗比胡晨阳‘
print(jieba.lcut(txt))
#打印的内容
runfile(‘E:/python项目/test.py‘, wdir=‘E:/python项目‘)
Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\ADMINI~1\AppData\Local\Temp\jieba.cache
Loading model cost 1.374 seconds.
Prefix dict has been built succesfully.
[‘狗‘, ‘比‘, ‘胡晨阳‘]

jieba模块基本介绍

标签：int tokenizer 三种模式 head 项目 tor The temp 基础

原文地址：https://www.cnblogs.com/a736659557/p/11778320.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行