1.安装第三方库(matplotlib,jieba,wordcloud,numpy) 1.1安装方法:pip命令在线安装(python3.x默认安装了pip,pip下载地址:https://pypi.python.org/pypi/pip#downloads) 已经配置好环境变量前提下,在cmd窗口 ...
分类:
其他好文 时间:
2018-11-26 00:07:13
阅读次数:
611
1.环境准备 py版本:python3.6.7 需要使用的包列表文件: requirements.txt 制作词云的图片一张:cloud.jpg 创建一个目录:JobPostion 用来存放爬取的csv文件格式的数据 用来解决词云中的乱码的字体文件 Arial Unicode MS.ttf 2.爬取 ...
分类:
其他好文 时间:
2018-11-17 20:47:21
阅读次数:
286
使用WordCloud生成词云图片 使用scale属性,精度级别?比例?我不知道具体该怎么翻译,反正越大越清楚。以下是详细代码。 本文详细介绍参考自:https://www.jianshu.com/p/fdd0acccf1c5 wordcloud开源项目:https://github.com/amu ...
分类:
其他好文 时间:
2018-11-13 00:16:41
阅读次数:
1566
from urllib import request from bs4 import BeautifulSoup as bs import re import codecs import jieba #分词包 import numpy #numpy计算包 import pandas as pd #分... ...
分类:
其他好文 时间:
2018-11-10 21:16:31
阅读次数:
324
from urllib import request from bs4 import BeautifulSoup as bs import re import codecs import jieba #分词包 import numpy #numpy计算包 import pandas as pd #分... ...
分类:
其他好文 时间:
2018-11-10 21:11:14
阅读次数:
174
“词云”这个概念由美国西北大学新闻学副教授、新媒体专业主任里奇·戈登(Rich Gordon)提出。 “词云”就是对网络文本中出现频率较高的“关键词”予以视觉上的突出,形成“关键词云层”或“关键词渲染”,从而过滤掉大量的文本信息,使浏览网页者只要一眼扫过文本就可以领略文本的主旨。 今天推荐一个免费的 ...
分类:
其他好文 时间:
2018-10-20 14:59:51
阅读次数:
515
现如今,词云技术遍地都是,分词模块除了jieba也有很多,主要介绍一下jieba的基本使用 运行结果 其中精确模式比较好用,全模式就是尽量将所有的词拿出来 ...
分类:
编程语言 时间:
2018-10-13 10:24:40
阅读次数:
376
一开始是想用qq空间说说做词云的,然而qq空间需要用cookies以及其他加密的东西,退而求其次搞搞新闻吧。 直接上代码了 有时候我们在html源码里面难以获得我们想要的元素的id,class只有不特殊的tag时候怎么办?这时候就要用xpath方法来查找。 我很讨厌给你一堆定义,那就直接上例子: 我 ...
分类:
其他好文 时间:
2018-10-09 23:56:27
阅读次数:
181
1、语料库构建 由于不像之前是对很多个文件进行词频统计,所以不需要使用os.walk()方法遍历每一个文件; 只需使用codecs.open()打开相应的文件,(记得close); 然后使用jieba模块中的load_userdict()方法导入词库 2、移除停用词 首先是读出停用词库,然后通过Da ...
分类:
编程语言 时间:
2018-10-02 00:20:54
阅读次数:
288
词云绘制 1、语料库的搭建、分词来源、移除停用词、词频统计 使用方法:os.path.join(path,name) #连接目录与文件名或目录 结果为path/name import os import os.path import codecs filePaths=[] fileContents= ...
分类:
编程语言 时间:
2018-10-01 23:45:29
阅读次数:
221