码迷,mamicode.com
首页 > 其他好文 > 详细

中文词频统计

时间:2018-03-29 00:13:28      阅读:206      评论:0      收藏:0      [点我收藏+]

标签:color   str   福利   item   rev   数字   标准   sorted   for   

import jieba
f=open(new.txt,r,encoding=utf-8)
new=f.read()

#关闭文件流
f.close()
#删除数字和标点符号
str = ‘‘‘1234567890一!!“”,。?、;’"‘,.、:()()\n‘’‘‘‘
for i in str:
    new=new.replace(i," ")

NEW=list(jieba.lcut(new))
exclude = [,,,,,,,,,,,,,,他们,,,,,,,,
           ,,可是,,,,,,一个, ,,,一点,,,
           没有,,,,,,,,\u3000,,,]

dictionary={}
for i in NEW:
    #只出现一次一般没有意义
    if NEW.count(i)==1:
        continue
    else:
        dictionary[i]=NEW.count(i)

#删除助词
for i in exclude:
     if i in dictionary.keys():
         del dictionary[i]
    #排序
dictionary=sorted(dictionary.items(),key=lambda item:item[1],reverse=True)
for i in range(19):
    print(dictionary[i])

 

运行结果:

(‘工会‘, 17)
(‘日‘, 16)
(‘月‘, 12)
(‘清明节‘, 11)
(‘经费‘, 10)
(‘不准‘, 8)
(‘元‘, 7)
(‘将‘, 7)
(‘上调‘, 6)
(‘节日‘, 6)
(‘假期‘, 6)
(‘规定‘, 5)
(‘基层‘, 5)
(‘号‘, 5)
(‘汽油‘, 5)
(‘每升‘, 4)
(‘福利‘, 4)
(‘标准‘, 4)
(‘发放‘, 4)

中文词频统计

标签:color   str   福利   item   rev   数字   标准   sorted   for   

原文地址:https://www.cnblogs.com/1103a/p/8666407.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!