码迷,mamicode.com
首页 > 其他好文 > 详细

爬虫QQ说说并生成词云图,回忆满满!比比谁更杀马特!

时间:2018-05-14 14:38:10      阅读:210      评论:0      收藏:0      [点我收藏+]

标签:环境变量   共享   浏览器   变量   地址   aix   html   html5   window   

技术分享图片

无图言虚空

技术分享图片

技术分享图片

解析器使用方法优势劣势
Python标准库 BeautifulSoup(markup, "html.parser") Python的内置标准库 执行速度适中 文档容错能力强 Python 2.7.3 or 3.2.2)前 的版本中文档容错能力差
lxml HTML 解析器 BeautifulSoup(markup, "lxml") 速度快 文档容错能力强 需要安装C语言库
lxml XML 解析器 BeautifulSoup(markup, ["lxml", "xml"]) BeautifulSoup(markup, "xml") 速度快 唯一支持XML的解析器 需要安装C语言库
html5lib BeautifulSoup(markup, "html5lib") 最好的容错性 以浏览器的方式解析文档 生成HTML5格式的文档 速度慢 不依赖外部扩展

技术分享图片

同理window的也一样,下载对应的驱动,解压后,将下载的**.exe 放到Python的安装目录,例如 D:\python 。 同时需要将Python的安装目录添加到系统环境变量里。

qq登录页http://i.qq.com,利用webdriver打开qq空间的登录页面

driver = webdriver.Chrome()
driver.get("http://i.qq.com")

技术分享图片

技术分享图片

技术分享图片

这个时候可以看到已经打开了qq说说的页面了, 注意 部分空间打开之后会出现一个提示框,需要先模拟点击事件关闭这个提示框

技术分享图片

tm我以前竟然还有个黄钻,好可怕~~,空间头像也是那么的年轻、主流...

技术分享图片

技术分享图片

技术分享图片

技术分享图片

技术分享图片

至此,爬取qq说说内容,并生成词云图。

源码github地址: github.com/taixiang/sp…

万人交流源码共享群:125240963

爬虫QQ说说并生成词云图,回忆满满!比比谁更杀马特!

标签:环境变量   共享   浏览器   变量   地址   aix   html   html5   window   

原文地址:https://www.cnblogs.com/sm123456/p/9035867.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!