码迷,mamicode.com
首页 > 其他好文 > 详细

9.27

时间:2018-09-27 13:02:24      阅读:150      评论:0      收藏:0      [点我收藏+]

标签:word   def   utf-8   .so   文字   ace   style   图片   close   

(1)

fo = open(girl.txt,r,encoding = utf-8)   #导入文件
girl = fo.read().lower()   # 设定全部小写
fo.close()       #关闭文件
print(girl)

x = ,.:?!_-;  #把出现的符号定义成一个字符串
for y in x :
    girl.replace(y, )     #用空格替换字符串中的标点符号以及特殊符号
print(y)

stra = girl.split()  #split以空格为界限拆分成字符串
print(len(stra),stra)   #len(stra)  求列表元素总个数

strb=set(stra)     #去掉重复元素变成集合
m = {a,the,and,i,you,in,no}   #定义一个集合,集合内容为虚词等
strb=strb-m              #利用集合特性,去除集合 strb 中的虚词等词性的单词
print(len(strb),strb)


strd = {}
for word in strb:   #进行遍历,把集合 strb 中的元素放到名为 strd  的空字典中
    strd[word] = stra.count(word)

print(len(strd),strd)

wcList = list(strd.items())   # list 把字典变成元素以元祖形式出现的列表
wcList.sort()  #按照默认方式进行排序:英文字母顺序
print(wcList)

技术分享图片

 

 

 

 

 

(2)

a = [Tatr,Bofgj,Tatr,李三,Tatr]

print(a)
a.sort()
print(a)


b = [85,60,31,76,87]
c = dict(zip(a,b))      #连接a,b变为字典
print(c)

cList = list(c.items())   # list 把字典变成元素以元祖形式出现的列表
print(cList)

def takeSecond(elem):   #按照第二位置
    x = elem[1]
    return x


cList.sort(key=takeSecond,reverse=True)   #进行降序排列
print(cList)

技术分享图片

 

 

 

 

 

 

(3)

fo = open(zhuzi.txt,r,encoding = utf-8)   #导入文件
zhuzi = fo.read().lower()   # 设定全部小写
fo.close()       #关闭文件
print(zhuzi)


import jieba

print(list(jieba.cut(zhuzi)))
print(list(jieba.cut(zhuzi,cut_all=True)))
print(list(jieba.cut_for_search(zhuzi)))

 

 

技术分享图片

9.27

标签:word   def   utf-8   .so   文字   ace   style   图片   close   

原文地址:https://www.cnblogs.com/zhangjij/p/9712288.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!