接着上篇的说的,爬取了大数据相关的职位信息,http://www.17bigdata.com/jobs/。 词云如图所示: 可以看出有些噪声词没能被去除,比如相关、以上学历等无效词汇。本想通过DF判断停用词,但是我爬的时候没顾及到这个问题,外加本身记录数也不高,就没再找职位信息的停用词。当然也可看出 ...
分类:
编程语言 时间:
2017-08-10 13:41:19
阅读次数:
165
接上一章,抓取京东评论区内容。 url=‘https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98vv399&productId=4560435&score=0&sortType=5&pag ...
分类:
编程语言 时间:
2017-08-07 01:20:09
阅读次数:
350
词云图,大家一定见过,大数据时代大家经常见,我们今天就来用python的第三方库wordcloud,来制作一个大数据词云图,同时会降到这个过程中遇到的各种坑, 举个例子,下面是我从自己的微信上抓的微信好友签名,制作的词云图:看来用的做多的还是“方得始终”啊 首先我们需要几个库,pip完了导入 咱们这 ...
分类:
编程语言 时间:
2017-07-12 19:54:19
阅读次数:
276
闲暇时间喜欢看小说,就想着给小说做词云,展示小说的主要内容。开发语言是Python,主要用到的库有wordcloud、jieba、scipy。代码很简单,首先用jieba.cut()函数做分词,生成以空格分割的字符串,然后新建WordCloud类,保存为图片。 结果如下 得到的结果很不理想,一是角色 ...
分类:
编程语言 时间:
2017-06-18 10:31:55
阅读次数:
316
期末复习比较忙过段时间来专门写scrapy框架使用,今天介绍如何用python生成词云,虽然网上有很多词云生成工具,不过自己用python来写是不是更有成就感。 今天要生成的是励志歌曲的词云,百度文库里面找了20来首,如《倔强》,海阔天空是,什么的大家熟悉的。 所要用到的python库有 jieba ...
分类:
编程语言 时间:
2017-06-13 00:02:25
阅读次数:
293
代码放在这里:wzyonggege/python-wechat-itchat 词云那里可以换成小黄人图片 0. itchat 最近研究了一些微信的玩法,我们可以通过网页版的微信微信网页版,扫码登录后去抓包爬取信息,还可以post去发送信息。 然后发现了itchat这个开源项目,作者是@LittleC ...
分类:
微信 时间:
2017-06-05 14:23:25
阅读次数:
1428
1 前言 2017年6月1日,美国特朗普总统正式宣布美国退出《巴黎协定》。宣布退出《巴黎协定》后,特朗普似乎成了“全球公敌”。 特斯拉总裁马斯克宣布退出总统顾问团队 迪士尼董事长离开总统委员会 谷歌等25家大公司联名刊发整版广告:美国不应退出巴黎协定 法国总统马克龙:特朗普宣布退出《巴黎协定》是“错 ...
分类:
编程语言 时间:
2017-06-03 09:48:27
阅读次数:
302
看过之后你有什么感觉?想不想自己做一张出来? 如果你的答案是肯定的,我们就不要拖延了,今天就来一步步从零开始做个词云分析图。当然,做为基础的词云图,肯定比不上刚才那两张信息图酷炫。不过不要紧,好的开始是成功的一半嘛。食髓知味,后面你就可以自己升级技能,进入你开挂的成功之路。 网上教你做信息图的教程很 ...
分类:
编程语言 时间:
2017-06-02 23:52:59
阅读次数:
370
前言 最近几日关注度最高的新闻莫过于一带一路峰会相关的消息,会议结束后,一带一路峰会联合公告已经公布出来了。本文通过词云分析,了解本次公告以及习大大在峰会开幕式上主要都讲了哪些关键内容。 1 一带一路峰会联合公告词云图 5月17日公布的一带一路峰会联合公告的词云分析结果图,如下: 词云图上,字体越大 ...
分类:
其他好文 时间:
2017-05-20 01:06:31
阅读次数:
344
1 import sys 2 reload(sys) 3 sys.setdefaultencoding('utf-8') 4 5 from os import path 6 from PIL import Image 7 import numpy as np 8 import matplotlib.... ...
分类:
其他好文 时间:
2017-05-10 15:43:56
阅读次数:
238