标签:int tokenizer 三种模式 head 项目 tor The temp 基础
jieba是优秀的第三方中文词库
中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程
pip install jieba #cmd命令行
精确模式:将句子最精确的分开,适合文本分析(无冗余)
全模式:句子中所有可以成词的词语都扫描出来,速度快,不能解决歧义(有冗余)
搜索引擎模式:在精确的基础上,对长词再次切分,提高召回率(有冗余)
#调用jieba词库 import jieba
#精确模式
jieba.cut(文件/文本等内容) #获取可迭代对象
jieba.lcut()
#全模式
jieba.cut(cut_all=True) #获取可迭代对象
jieba.lcut(cut_all=True)
#搜索引擎模式
jieba.cut_for_search() # 获取可迭代对象
jieba.lcut_for_search()
jieba.cut生成的是一个生成器,generator,也就是可以通过for循环来取里面的每一个词。
import jieba
txt = ‘狗比胡晨阳‘
print(jieba.cut(txt))
#打印的内容
<generator object Tokenizer.cut at 0x000002004F5B8348>
jieba.lcut 直接生成的就是一个list
import jieba
txt = ‘狗比胡晨阳‘
print(jieba.lcut(txt))
#打印的内容
runfile(‘E:/python项目/test.py‘, wdir=‘E:/python项目‘)
Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\ADMINI~1\AppData\Local\Temp\jieba.cache
Loading model cost 1.374 seconds.
Prefix dict has been built succesfully.
[‘狗‘, ‘比‘, ‘胡晨阳‘]
标签:int tokenizer 三种模式 head 项目 tor The temp 基础
原文地址:https://www.cnblogs.com/a736659557/p/11778320.html