标签:set lambda div print txt odi 排除 输出 统计
1、下载一中文长篇小说,并转换成UTF-8编码。
2、使用jieba库,进行中文词频统计,输出TOP20的词及出现次数。
3、’排除一些无意义词、合并同一词。
4、对词频统计结果做简单的解读。
import jieba txt=open(‘456.txt‘,‘r‘,encoding=‘utf-8‘).read() w=list(jieba.cut(txt)) exp={‘ ‘,‘,‘,‘。‘,‘“‘,‘”‘,‘:‘,‘?‘} keys=set(w)-exp dic={} for o in keys: if len(o)>1: dic[o]=w.count(o) e=list(dic.items()) e.sort(key=lambda x:x[1],reverse=True) for i in range(20): print(e[i])
(‘雷沙‘, 27) (‘一个‘, 21) (‘木易‘, 17) (‘自己‘, 14) (‘登记‘, 8) (‘夫特‘, 8) (‘洛克‘, 7) (‘什么‘, 7) (‘就是‘, 7) (‘知道‘, 6) (‘大兵‘, 6) (‘突然‘, 6) (‘怎么‘, 5) (‘骠骑‘, 5) (‘不是‘, 5) (‘这时‘, 5) (‘这么‘, 5) (‘军饷‘, 5) (‘铜币‘, 5) (‘马上‘, 5)
标签:set lambda div print txt odi 排除 输出 统计
原文地址:http://www.cnblogs.com/095lqt/p/7610387.html