码迷,mamicode.com
首页 > 其他好文 > 详细

中文词频统计

时间:2017-09-29 12:01:37      阅读:163      评论:0      收藏:0      [点我收藏+]

标签:set   lambda   div   print   txt   odi   排除   输出   统计   

1、下载一中文长篇小说,并转换成UTF-8编码。

2、使用jieba库,进行中文词频统计,输出TOP20的词及出现次数。

3、’排除一些无意义词、合并同一词。

4、对词频统计结果做简单的解读。


import jieba

txt=open(456.txt,r,encoding=utf-8).read()
w=list(jieba.cut(txt))
exp={ ,,,,,,}

keys=set(w)-exp

dic={}
for o in keys:
    if len(o)>1:
        dic[o]=w.count(o)

e=list(dic.items())
e.sort(key=lambda x:x[1],reverse=True)

for i in range(20):
    print(e[i])

(雷沙, 27)
(一个, 21)
(木易, 17)
(自己, 14)
(登记, 8)
(夫特, 8)
(洛克, 7)
(什么, 7)
(就是, 7)
(知道, 6)
(大兵, 6)
(突然, 6)
(怎么, 5)
(骠骑, 5)
(不是, 5)
(这时, 5)
(这么, 5)
(军饷, 5)
(铜币, 5)
(马上, 5)

 


 

中文词频统计

标签:set   lambda   div   print   txt   odi   排除   输出   统计   

原文地址:http://www.cnblogs.com/095lqt/p/7610387.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!