码迷,mamicode.com
首页 > 其他好文 > 详细

jieba(结巴)常用方法

时间:2019-05-18 18:41:37      阅读:3408      评论:0      收藏:0      [点我收藏+]

标签:常用方法   --   str   实例   def   mod   port   扫描   pytho   

第一步:先安装jieba库

  输入命令:pip install jieba

  技术图片

jieba库常用函数:

  jieba库分词的三种模式:
  1、精准模式:把文本精准地分开,不存在冗余
  2、全模式:把文中所有可能的词语都扫描出来,存在冗余
  3、搜索引擎模式:在精准模式的基础上,再次对长词进行切分

  技术图片

  精准模式:

  >>> import jieba
  >>> jieba.lcut("中国是一个伟大的国家")
  Building prefix dict from the default dictionary ...
  Loading model from cache C:\Users\25282\AppData\Local\Temp\jieba.cache
  Loading model cost 0.869 seconds.
  Prefix dict has been built succesfully.
  [‘中国‘, ‘是‘, ‘一个‘, ‘伟大‘, ‘的‘, ‘国家‘]

  全模式:

  >>> jieba.lcut("中国是一个伟大的国家",cut_all=True)
  [‘中国‘, ‘国是‘, ‘一个‘, ‘伟大‘, ‘的‘, ‘国家‘]

  搜索引擎模式:

  >>> jieba.lcut_for_search("中华人民共和国是伟大的")
  [‘中华‘, ‘华人‘, ‘人民‘, ‘共和‘, ‘共和国‘, ‘中华人民共和国‘, ‘是‘, ‘伟大‘, ‘的‘]

  向分词词典增加新词:

  >>> jieba.add_word("蟒蛇语言")
  >>> jieba.lcut("python是蟒蛇语言")
  [‘python‘, ‘是‘, ‘蟒蛇语言‘]

jieba库应用举例1 ——统计八荣八耻中出现的词汇

  技术图片

  技术图片

jieba库分词统计实例2--三国演义词汇

 (1)查找出“threekingdoms.txt”文件中出现频率前十位的词汇 

  技术图片

 (2)统计出“threekingdoms.txt”文件 “关羽”、“曹操”、“诸葛亮”、“刘备” 等人名出现的次数

  技术图片

jieba(结巴)常用方法

标签:常用方法   --   str   实例   def   mod   port   扫描   pytho   

原文地址:https://www.cnblogs.com/ltb6w/p/10886416.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
分享档案
周排行
mamicode.com排行更多图片
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!