1. urllib2的opener和handler概念 1.1Openers: 当你获取一个URL你使用一个opener(一个urllib2.OpenerDirector的实例)。正常情况下,我们使用默认opener:通过urlopen。但你能够创建个性的openers。可以用build_ope.....
分类:
编程语言 时间:
2015-08-21 22:57:00
阅读次数:
195
前三篇文章介绍了安装过程和通过Selenium实现访问Firefox浏览器并自动搜索"Eastmount"关键字及截图的功能。而这篇文章主要简单介绍如何实现自动登录163邮箱,同时继续介绍Selenium+Python官网Locating Elements部分内容。第一次翻译文档,希望该篇基础性文章对你有所帮助,如果有错误或不足之处,请海涵~...
分类:
编程语言 时间:
2015-08-21 19:34:20
阅读次数:
412
Linux 安装python爬虫框架 scrapy...
分类:
编程语言 时间:
2015-08-21 17:12:35
阅读次数:
163
该篇文章主要介绍在Windows下通过Selenium+Python实现自动访问Firefox和Chrome并实现访问百度自动搜索并截图的功能。这是一个使用Selenium的简单应用,并附有详细的注释,参考官方文档,希望对你有所帮助~...
分类:
编程语言 时间:
2015-08-20 16:53:25
阅读次数:
215
最近准备深入学习Python相关的爬虫知识了,如果说在使用Python爬取相对正规的网页使用"urllib2 + BeautifulSoup + 正则表达式"就能搞定的话;那么动态生成的信息页面,如Ajax、JavaScript等就需要通过"Phantomjs + CasperJS + Selenium"来实现了。所以先从安装和功能介绍入门,后面在介绍一些Python相关的爬虫应用。基础性文章希望对你有所帮助~...
分类:
编程语言 时间:
2015-08-19 20:22:32
阅读次数:
201
接着上一篇笔记这次将该blog的所有文章都下载下来思路为根据dict中的url去解析网页并将其中的博文部分获取并下载下来#coding=utf-8import urllib2import urllibfrom bs4 import BeautifulSoupimport sysreload(sys)...
分类:
编程语言 时间:
2015-08-18 13:37:21
阅读次数:
134
经过一段时间的学习,终于入了门先爬一个csdn 的blog练练手整体思路是首先判断某个blog有多少页然后根据页数 去获得相应的url再爬出每一页的title和对应的url这里使用了BeautifulSoup来解析页面#coding=utf-8import urllib2from bs4 impor...
分类:
编程语言 时间:
2015-08-17 19:02:09
阅读次数:
146
这要从很早以前说起,那个时候是刚开始玩Ubuntu,但是ubuntu的壁纸不太好看,所以我就想方设法找到很漂亮的壁纸来替换原先的,但是我又想让壁纸像幻灯片一样播放,但是ubuntu不像windows,没有这样的功能,所以只能上网找办法来解决,最后终于在ubuntu论坛看到了variety这个东东,这个东西用起来确实很酷,可以自己编辑图片源,但是它本身默认带了几个源,而恰好其中就有wallheave...
分类:
编程语言 时间:
2015-08-10 14:56:41
阅读次数:
2091
首先打开校园网(以我的学校为例"http://www.zhbit.com/") 现在我们需要获取上图红色框框的数据并输出 下面我们打开浏览器的开发模式并定位到相应的代码 不难发现,学校要闻只显示5条信息 下面我们就开始写程序 #?...
分类:
编程语言 时间:
2015-08-10 08:16:29
阅读次数:
931
我才知道爬虫还可以这样—火车采集器的使用说在前面额。。。好吧,我这一个三毛钱的屌丝也开始步入实习阶段了,在北京其实也挺好的,虽说压力大,但是今后就业机会也相对而言大一些。好了,说回今天的主题,之前学习Python爬虫的时候一直以为今后工作的话进行爬虫需要自己写源代码然后再一直爬呀爬呀爬,但是不是这样...
分类:
其他好文 时间:
2015-08-07 21:40:25
阅读次数:
991