谈谈哥的python爬虫书写之路

时间：2016-05-05 12:24:53 阅读：166 评论：0 收藏：0 [点我收藏+]

标签：

为了做一个百度网盘搜索引擎，哥开始研究爬虫，从此迷上爬虫而一发不可收拾，现在就大概谈谈哥的爬虫之路，顺便给出引擎：http://www.quzhuanpan.com

首先基本的 Python 语法你要了解吧，推荐一本书《Python基础教程》，很适合入门。

其次分析你的爬虫需求。程序具体流程是怎么样的？把程序的大致框架搭起来。另外可能还有哪些难点？

然后了解一下一般写爬虫需要用哪些库，这些库可以很好的帮助你解决很多问题。推荐强悍的 Requests: HTTP for Humans 另外还有其他一些库如 urllib2 BeautifulSoup 都可以了解下。

动手开始写了，遇到问题 Google 即可，Google 不行就上知乎问，我遇到的一个问题就是知乎私信大牛解决的。在写的过程中还会学到很多相关的知识，比如说HTTP协议，多线程等等。

这里大概说说几种特殊情况处理：

1、对于登陆情况的处理

这种情况属于post请求，即先向服务器发送表单数据，服务器再将返回的cookie存入本地。

2、使用cookie登陆

使用cookie登陆，服务器会认为你是一个已登陆的用户，所以就会返回给你一个已登陆的内容。因此，需要验证码的情况可以使用带验证码登陆的cookie解决。

3、适用情况：限制IP地址情况，也可解决由于“频繁点击”而需要输入验证码登陆的情况。这种情况最好的办法就是维护一个代理IP池，网上有很多免费的代理IP，良莠不齐，可以通过筛选找到能用的。对于“频繁点击”的情况，我们还可以通过限制爬虫访问网站的频率来避免被网站禁掉

4、适用情况：限制频率情况。

Requests，Urllib2都可以使用time库的sleep()函数：

5、有些网站会检查你是不是真的浏览器访问，还是机器自动访问的。这种情况，加上User-Agent，表明你是浏览器访问即可。有时还会检查是否带Referer信息还会检查你的Referer是否合法，一般再加上Referer。

谢谢看官

标签：

原文地址：http://www.cnblogs.com/huangxie/p/5461094.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

周排行