码迷,mamicode.com
首页 > 编程语言 > 详细

Python的jieba模块简介

时间:2018-10-13 10:24:40      阅读:376      评论:0      收藏:0      [点我收藏+]

标签:女朋友   精确   port   imp   alt   毕业   path   pytho   count   

现如今,词云技术遍地都是,分词模块除了jieba也有很多,主要介绍一下jieba的基本使用

import jieba
import jieba.posseg as psg
from os import path
from collections import Counter

s=u我想和女朋友一起去北京天安门闲逛。。

cut = jieba.cut(s)

print(精确模式)
print(cut)
print(,.join(cut))

print (全模式)
print(,.join(jieba.cut(s,cut_all = True)))

print(搜索引擎模式)
print(,.join(jieba.cut_for_search(s)))

print(词性)
print([(x.word,x.flag) for x in psg.cut(s)])
print([(x.word,x.flag) for x in psg.cut(s) if x.flag.startswith(n)])




print(--*--*10)
seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("Full Mode:", "/ ".join(seg_list)) # 全模式

seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("Default Mode:", "/ ".join(seg_list))  # 精确模式

seg_list = jieba.cut("他来到了网易杭研大厦")  # 默认是精确模式
print(", ".join(seg_list))

seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所,后在日本京都大学深造")  # 搜索引擎模式
print(", ".join(seg_list))

d=path.dirname(__file__)
sanguo_text=open(path.join(d,"data//sanguo.txt"),encoding=utf-8).read()
print(len(sanguo_text))

sanguo_words = [x for x in jieba.cut(sanguo_text) if len(x) >= 2]
c = Counter(sanguo_words).most_common(20)
print(c)

运行结果

技术分享图片

其中精确模式比较好用,全模式就是尽量将所有的词拿出来

Python的jieba模块简介

标签:女朋友   精确   port   imp   alt   毕业   path   pytho   count   

原文地址:https://www.cnblogs.com/yuxuanlian/p/9781792.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!