标签:排除 主人公 import log list div port alt range
1.下载一中文长篇小说,并转换成UTF-8编码
《小王子》
2.使用jieba库,进行中文词频统计,输出TOP20的词及出现次数
import jieba txt=open(‘F:\\小王子.txt‘,‘r‘,encoding=‘utf-8‘).read() words=list(jieba.cut(txt)) exp={‘, ‘} keys=set(words)-exp dic={} for w in keys: dic[w]=words.count(w) wc=list(dic.items()) wc.sort(key=lambda x:x[1],reverse=True) for i in range(20): print(wc[i])
3.排除一些无意义词、合并同一词
import jieba txt=open(‘F:\\小王子.txt‘,‘r‘,encoding=‘utf-8‘).read() words=list(jieba.cut(txt)) exp={‘, ‘} keys=set(words)-exp dic={} for w in keys: if len(w)>1: dic[w]=words.count(w) wc=list(dic.items()) wc.sort(key=lambda x:x[1],reverse=True) for i in range(15): print(wc[i])
4.对词频统计结果做简单的解读
本篇小说出现次数最多的词是小王子,本文的主人公就是小王子。而且星星,星球出现次数也较多,也对应了《小王子》这本书给人的梦幻,想象空间!
标签:排除 主人公 import log list div port alt range
原文地址:http://www.cnblogs.com/892356821qqcom/p/7610332.html