码迷,mamicode.com
首页 > 其他好文 > 详细

中文词频统计

时间:2018-03-28 18:54:09      阅读:126      评论:0      收藏:0      [点我收藏+]

标签:http   imp   图片   eve   bsp   div   int   分析   range   

下载一长篇中文文章。

从文件读取待分析文本。

news = open(‘gzccnews.txt‘,‘r‘,encoding = ‘utf-8‘)

安装与使用jieba进行中文分词。

pip install jieba

import jieba

list(jieba.lcut(news))

生成词频统计

排序

排除语法型词汇,代词、冠词、连词

输出词频最大TOP20

 


import jieba

f=open(‘好吗.txt‘,‘r‘)
notes=f.read()
notelist=list(jieba.lcut(notes))

NoteDic={}
for i in set(notelist):    #计算次数
    NoteDic[i]=notelist.count(i)

delete_word={‘的‘,‘ ‘,‘你‘,‘;‘, ‘\u3000‘, ‘这‘, ‘就‘, ‘说‘, ‘皆‘, ‘没有‘, ‘自己‘, ‘走‘,‘,‘,‘。‘,‘:‘,‘“‘,‘”‘,‘看到‘,‘‘,‘?‘,‘着‘,‘想‘,           ‘操‘,‘遂‘,‘与‘,‘不‘,‘是‘,‘、‘,‘这个‘,‘和‘,‘!‘, ‘\n‘,‘…‘,‘?‘,‘什么‘,‘吗‘,‘好‘,‘现在‘,‘知道‘,‘知道‘,‘一个‘,‘吧‘,‘看‘,‘想着‘,‘真的‘,             ‘很‘,‘了‘,‘我‘,‘在‘,‘也‘,‘有‘,‘人‘,‘去‘,‘.‘,‘他‘,‘都‘,‘把‘,‘样子‘,‘上‘,‘事‘,‘给‘,‘她‘,‘要‘,‘不是‘,‘就是‘,‘会‘}

for i in delete_word:        #删除非法词汇
    if i in NoteDic:
        del NoteDic[i]

sort_word = sorted(NoteDic.items(), key= lambda d:d[1], reverse = True)  # 由大到小排序
for i in range(20):  #输出词频Top20
    print(sort_word[i])

  


技术分享图片

 


 


 

中文词频统计

标签:http   imp   图片   eve   bsp   div   int   分析   range   

原文地址:https://www.cnblogs.com/qazwsx833/p/8665293.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!