前一篇文章"[python爬虫] Selenium爬取新浪微博内容及用户信息"简单讲述了如何爬取新浪微博手机端用户信息和微博信息。
用户信息:包括用户ID、用户名、微博数、粉丝数、关注数等。微博信息:包括转发或原创、点赞数、转发数、评论数、发布时间。
而这篇文章主要爬取客户端的微博信息,相对信息更多;同时登录微博后在输入框中搜索热点话题,然后依次爬取微博信息和对应的评论,同时遇到了评论动态加载的爬取问题。...
分类:
编程语言 时间:
2016-04-29 19:01:12
阅读次数:
293
前一篇文章"[python爬虫] Selenium爬取新浪微博内容及用户信息"简单讲述了如何爬取新浪微博手机端用户信息和微博信息。
用户信息:包括用户ID、用户名、微博数、粉丝数、关注数等。微博信息:包括转发或原创、点赞数、转发数、评论数、发布时间。
而这篇文章主要爬取客户端的微博信息,相对信息更多;同时登录微博后在输入框中搜索热点话题,然后依次爬取微博信息和对应的评论,同时遇到了评论动态加载的爬取问题。...
分类:
编程语言 时间:
2016-04-24 08:42:56
阅读次数:
997
我自认为这是自己写过博客中一篇比较优秀的文章,同时也是在深夜凌晨2点满怀着激情和愉悦之心完成的。首先通过这篇文章,你能学到以下几点: 1.可以了解Python简单爬取图片的一些思路和方法 2.学习Selenium自动、测试分析动态网页和正则表达式的区别和共同点 3.了解作者最近学习得比较多的搜索引擎...
分类:
编程语言 时间:
2015-12-18 06:54:39
阅读次数:
1120
该篇文章主要介绍在Windows下通过Selenium+Python实现自动访问Firefox和Chrome并实现访问百度自动搜索并截图的功能。这是一个使用Selenium的简单应用,并附有详细的注释,参考官方文档,希望对你有所帮助~
分类:
编程语言 时间:
2015-12-18 06:53:14
阅读次数:
442
作为一名从小就看篮球的球迷,会经常逛虎扑篮球及湿乎乎等论坛,在论坛里面会存在很多精美图片,包括NBA球队、CBA明星、花边新闻、球鞋美女等等,如果一张张右键另存为的话真是手都点疼了。作为程序员还是写个程序来进行吧!所以我通过Python+Selenium+正则表达式+urllib2进行海量图片爬取。...
分类:
编程语言 时间:
2015-12-18 06:53:13
阅读次数:
373
本文主要是自己的在线代码笔记,在生物医学本体Ontology构建过程中,我使用Selenium定向爬取生物医学PubMed数据库的内容。PubMed是一个免费的搜寻引擎,提供生物医学方面的论文搜寻以及摘要。它的数据库来源为MEDLINE(生物医学数据库),其核心主题为医学,但亦包括其他与医学相关的领...
分类:
编程语言 时间:
2015-12-18 06:53:06
阅读次数:
449
前面我讲述过如何通过BeautifulSoup获取维基百科的消息盒,同样可以通过Spider获取网站内容,最近学习了Selenium+Phantomjs后,准备利用它们获取百度百科的旅游景点消息盒(InfoBox),这也是毕业设计实体对齐和属性的对齐的语料库前期准备工作。希望文章对你有所帮助~
分类:
编程语言 时间:
2015-12-18 06:50:03
阅读次数:
486
这篇文章主要Selenium+Python自动测试或爬虫中的常见定位方法、鼠标操作、键盘操作介绍,希望该篇基础性文章对你有所帮助,如果有错误或不足之处,请海涵~记录此站第一篇文章,希望能分享更多文章于此!一.定位元素方法这里有各种策略用于定位网页中的元素(locate elements),你可以选择...
分类:
编程语言 时间:
2015-09-15 18:17:43
阅读次数:
716
前三篇文章介绍了安装过程和通过Selenium实现访问Firefox浏览器并自动搜索"Eastmount"关键字及截图的功能。而这篇文章主要简单介绍如何实现自动登录163邮箱,同时继续介绍Selenium+Python官网Locating Elements部分内容。第一次翻译文档,希望该篇基础性文章对你有所帮助,如果有错误或不足之处,请海涵~...
分类:
编程语言 时间:
2015-08-21 19:34:20
阅读次数:
412