码迷,mamicode.com
首页 > 编程语言 > 详细

python爬虫

时间:2016-12-09 00:15:01      阅读:134      评论:0      收藏:0      [点我收藏+]

标签:机制   方式   charset   控件   ade   压缩   之间   网站   header   

实现爬虫的步骤
1.分析获得目标url
解析response的压缩方式,以下两种方法
* response.info() -> 看Content-Encoding
* 如果有chrome或者safri -》 打开浏览器工具-》network-》response查看charset。header中查看Content-Encoding。
根据得到的encoding和charset来解压缩和解码网页内容。

2.找到翻页的控件值。可用其他能够遍历所有目标网页的空间替代。必须唯一,方便正则匹配。
正则相关:.*? 非贪婪匹配。a.*?b -》 a到最近的b之间的字符。

2.保存图片到本地

注意事项:有些网站有反爬虫机制。

手段:

1. 自动切换user agent。

2. 自动切换ip。

3.多线程

4. 用现成的爬虫框架

python解析网页的库:beautiful soap

爬虫框架:pyspider,scrapy等

 

python爬虫

标签:机制   方式   charset   控件   ade   压缩   之间   网站   header   

原文地址:http://www.cnblogs.com/guochunyi/p/6143266.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!