标签:logs 单词 for ima .so 语法 blog reverse nbsp
可以下载一长篇的英文小说,进行词频的分析。
1.读入待分析的字符串
2.分解提取单词
3.计数字典
4.排除语法型词汇
5.排序
6.输出TOP(20)
7.对输出结果的简要说明。
xu =open(‘D:\qqq.txt‘,‘r‘) news = xu.read() xu.close() news = news.lower() #字符串处理 for i in‘,.‘: news = news.replace(i,‘ ‘) words = news.split(‘ ‘) #单词的列表 exp = {‘‘,‘is‘,‘a‘,‘i‘,‘of‘,‘as‘,‘to‘,‘he‘,‘the‘}#不统计单词的集合 dic = {} keys = set(words)-exp # 键的集合 for w in keys: dic[w] = words.count(w)#单词计数字典 wc = list(dic.items())#(单词,计数)元组的列表 wc.sort(key= lambda x:x[1],reverse=True)#列表排序 for i in range(20):#输出TOP20元组 print(wc[i])
标签:logs 单词 for ima .so 语法 blog reverse nbsp
原文地址:http://www.cnblogs.com/acef/p/7603010.html