标签:close bsp open 字符 提取 ace 词频统计 分解 class
可以下载一长篇的英文小说,进行词频的分析。
1.读入待分析的字符串
2.分解提取单词
3.计数字典
4.排除语法型词汇
5.排序
6.输出TOP(20)
7.对输出结果的简要说明。
#读入待分析的字符 s1=open (‘head.txt‘,‘r‘) s=s1.read() s1.close() #分解提取单词 s=s.lower() for i in ‘.,?!‘: s=s.replace(i,‘ ‘) words=s.split(" ") #新建集合 exp={‘‘,‘the‘,‘a‘,‘the‘,‘to‘,‘be‘,‘i‘} # 单词计数字典 dic={} keys=set(words)-exp for i in keys: dic[i]=words.count(i) wa=list(dic.items()) wa.sort(key=lambda x:x[1],reverse=True)#排序 #输出TOP(20) for i in range(20): print(wa[i])
标签:close bsp open 字符 提取 ace 词频统计 分解 class
原文地址:http://www.cnblogs.com/Sjkq1/p/7602254.html