标签:.com cut int read range 词汇 exp 一个 key
我对其进行统计的小说是余华的《在细雨中呼喊》,这是一本关于回忆的书。
import jieba txt=open(‘xiyu.txt‘,‘r‘,encoding=‘utf-8‘).read() words=list(jieba.cut(txt)) exp={‘,‘,‘没有‘,‘他们‘,‘我们‘,‘看到‘,‘那个‘,‘这个‘,‘时候‘,‘那时‘,‘以后‘,‘知道‘,‘一个‘,‘已经‘,‘起来‘,‘一样‘,‘告诉‘,‘来到‘,‘看着‘,‘这样‘,‘后来‘} keys=set(words)-exp dic={} for w in keys: if len(w)>1: dic[w]=words.count(w) wc=list(dic.items()) wc.sort(key=lambda x:x[1],reverse=True) for i in range(20): print(wc[i])
从词汇出现的频率分析,可以看出本书主要回忆的是作者及作者的家人们过去的事情。
标签:.com cut int read range 词汇 exp 一个 key
原文地址:http://www.cnblogs.com/lyx1997/p/7611818.html