码迷,mamicode.com
首页 > 其他好文 > 详细

十九大报告词频分析

时间:2019-04-03 12:10:25      阅读:214      评论:0      收藏:0      [点我收藏+]

标签:isp   display   dcl   分析   文本   ipy   输出   lob   collect   

1.准备工作

环境要求:Jupyter、python3.7,jieba库

 

2.python代码

#! python3
# -*- coding: utf-8 -*-
import os, codecs
import jieba
from collections import Counter
 
def get_words(txt):
    seg_list = jieba.cut(txt)   #对文本进行分词
    c = Counter()
    for x in seg_list:          #进行词频统计
        if len(x)>1 and x != \r\n:
            c[x] += 1
    print(常用词频度统计结果)
    for (k,v) in c.most_common(20):      #遍历输出高频词
        print(%s%s %s  %d % (  *(5-len(k)), k, **int(v/3), v))
 
if __name__ == __main__:
    with codecs.open(19d.txt, r, utf8) as f:
        txt = f.read()
    get_words(txt)

 

3.显示效果

 

技术图片

input

 

引用

https://blog.csdn.net/onestab/article/details/78307765

https://nbviewer.jupyter.org/github/windard/Python_Lib/blob/master/code/%E4%BD%BF%E7%94%A8%20wordcloud%20%E7%94%9F%E6%88%90%E8%AF%8D%E4%BA%91.ipynb

 

十九大报告词频分析

标签:isp   display   dcl   分析   文本   ipy   输出   lob   collect   

原文地址:https://www.cnblogs.com/justlikecode/p/10645295.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!