python抓取网页过程

时间：2015-04-17 17:51:02 阅读：139 评论：0 收藏：0 [点我收藏+]

标签：

准备过程

1.抓取网页的过程

准备好http请求（http request）->提交对应的请求->获得返回的响应（http response）->获得网页源码

2.GET还是POST

3.Headers（可选）

在某些情况下，直接抓取是被禁止的，此时需要提供一个Headers来告诉对方我不是机器人

例如：

1 def getHtml(url):
2     header={‘User-Agent‘ : ‘Mozilla/5.0 (Windows NT 6.1; WOW64; rv:14.0) Gecko/20100101 Firefox/14.0.1‘,‘Referer‘ : ‘******‘}
3     request=urllib2.Request(url,None,header)
4     response=urllib2.urlopen(request)
5     text=response.read()
6     return text

4.Post Data（可选）

某些情况下是需要登录某网站的，此时需要提交帐号密码之类的，则需要使用Post Data

在IE中称为request body，chrome中成为Post Data

5.Cookie（可选）

一般来说，模拟登陆的时候往往会涉及到Cookie

6.其他（代理，最大超时时间timeout）

内容分析

1.对于html源码，调用BeautifulSoup库

2.正则表达式

本文参考了http://www.crifan.com/summary_about_flow_process_of_fetch_webpage_simulate_login_website_and_some_notice/

可以说是一个简化版，想看的可以去看原文

PS：博主提供了很多计算机方面的资料，读后帮助很大，有兴趣的可以过去看看

python抓取网页过程

标签：

原文地址：http://www.cnblogs.com/wswang/p/4435093.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行