码迷,mamicode.com
首页 > 编程语言 > 详细

python第六周:字典,jieba库

时间:2020-01-10 20:16:46      阅读:98      评论:0      收藏:0      [点我收藏+]

标签:cut   ems   法国   第三方库   dict   table   切分   扩展   false   

字典:

字典类型是“映射”的体现

键值对:键是数据索引的扩展

字典是键值对的集合,键值对之间无序,采用大括号{}和dict()创建,键值对用冒号。表示为

{<键1>:<值1>,<键2>:<值2>, ... , <键n>:<值n>}

在字典变量中,通过键值获取值,如: <值> = <字典变量>[<键>]

>>> d = {"中国":"北京","美国":"华盛顿":"法国":"巴黎"}
>>> d["中国"] 
"北京"
>>> de = {} ; type(de)
<class ‘dict‘>#返回变量x的类型

字典类型操作函数和方法

del d[k] 删除字典d中键k对应的数据值
k in d 判断键k是否在字典d中,如果在返回True,否则返回false
d.keys() 返回字典d中所有键信息
d.values() 返回字典d中所有值的信息
d.items() 返回字典d中所有的键值对信息
d.get(k,<default>) 键k存在,返回相应值,不在则返回<default>值
d.pop(k,<default>) 键k存在,则取出相应值,不在则返回<default>值
d.popitem() 随机从字典d中取出一个键值对,以元组形式返回
d.clear() 删除所有键值对
len(d) 返回字典d中元素的个数

 

jieba库是优秀的中午分词第三方库

cmd命令: pip install jieba

原理: 利用了一个中文词库,确定汉字之间的关联概率

精确模式:把文本精确的分开,不存在冗余单词

全模式:把文本所有可能的词语扫描出来,有冗余

搜索引擎模式:在精确模式的基础上,对长词再次切分

常用函数

jieba.lcut(s) 精确模式,返回一个列表类型的分词结果
jieba/lcut(s,cut_all=Ture) 全模式
jieba.lcut_for_search(s) 搜索引擎模式
jieba.add_word(w) 向分词词典增加新词w

 

 

 

 

python第六周:字典,jieba库

标签:cut   ems   法国   第三方库   dict   table   切分   扩展   false   

原文地址:https://www.cnblogs.com/mouzaisi/p/12177832.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!