python jieba

时间：2020-05-06 01:37:38 阅读：74 评论：0 收藏：0 [点我收藏+]

标签：word 全面分词索引 port extra extract 中国科学院 join

pip install jieba

分词

import jieba 
seg_list = jieba.cut("我来到清华大学", cut_all=True)
# join 是 split 的逆操作
# 即使用一个拼接符将一个列表拼成字符感
print("/".join(seg_list) # 全模式
      
seg_list = jieba.cut("我来到清华大学", cut_all=False)
print("/".join(seg_list)) # 精确模式 默认
      
seg_list = jieba.cut_for_search("”小明硕士毕业于中国科学院计算所，后来在日本京都大学深造") # 搜索引擎模式
print("/".join(seg_list))

关键词提取

import jieba.analyse

content = """中国特色社会主义是我们党领导的伟大事业，全部推进党的建设新的伟大工程，是这
一伟大事业取得胜利的关键所在。党坚强有力，事业才能兴旺发达，阔家才能繁荣稳定，人民才能幸
桶安康。党的十八大以来，我们党坚持党要管党、从严治党， 1疑心聚力、直击积弊、扶正被邪，党的
建设开创新局面，党风政风呈现新气象。围绕从严管党治党提出一系列新的茧要思想，
为全面推进党的建设新的伟大工程进一步指明了方向。"""

# 第一个参数：待提取关键词的文本
# 第二个参数：返回关键词的数量，重要性从高到低排序
# 第三个参数：是否同时返回每个关键词的权重
# 使用 TF-IDF 提取关键词
keywords = jieba.analyse.extract_tags(content, topK=20, withWeight=True)
for key, weight in keywords:
    print(key, weight)

# 使用 TextRank 提取关键词
keywords = jieba.analyse.textrank(content, topK=20, withWeight=True)
for key, weight in keywords:
    print(key, weight)

停用词

from jieba import analyse
analyse.set_stop_words("stop_word.csv")

stop_word.csv

此后
恐怕
以及
你
我
他

python jieba

标签：word 全面分词索引 port extra extract 中国科学院 join

原文地址：https://www.cnblogs.com/iFanLiwei/p/12833830.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行