python爬虫

时间：2016-12-09 00:15:01 阅读：134 评论：0 收藏：0 [点我收藏+]

实现爬虫的步骤
1.分析获得目标url
解析response的压缩方式，以下两种方法
＊ response.info() -> 看Content-Encoding
＊如果有chrome或者safri －》打开浏览器工具－》network－》response查看charset。header中查看Content-Encoding。
根据得到的encoding和charset来解压缩和解码网页内容。

2.找到翻页的控件值。可用其他能够遍历所有目标网页的空间替代。必须唯一，方便正则匹配。
正则相关：.*? 非贪婪匹配。a.*?b －》 a到最近的b之间的字符。

2.保存图片到本地

注意事项：有些网站有反爬虫机制。

手段：

1. 自动切换user agent。

2. 自动切换ip。

3.多线程

4. 用现成的爬虫框架

python解析网页的库：beautiful soap

爬虫框架：pyspider，scrapy等

python爬虫

标签：机制方式 charset 控件 ade 压缩之间网站 header

原文地址：http://www.cnblogs.com/guochunyi/p/6143266.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行