码迷,mamicode.com
首页 > 编程语言 > 详细

python抓取网页过程

时间:2015-04-17 17:51:02      阅读:139      评论:0      收藏:0      [点我收藏+]

标签:

准备过程

1.抓取网页的过程

准备好http请求(http request)->提交对应的请求->获得返回的响应(http response)->获得网页源码

2.GET还是POST

3.Headers(可选)

在某些情况下,直接抓取是被禁止的,此时需要提供一个Headers来告诉对方我不是机器人

例如:

1 def getHtml(url):
2     header={User-Agent : Mozilla/5.0 (Windows NT 6.1; WOW64; rv:14.0) Gecko/20100101 Firefox/14.0.1,Referer : ******}
3     request=urllib2.Request(url,None,header)
4     response=urllib2.urlopen(request)
5     text=response.read()
6     return text

4.Post Data(可选)

某些情况下是需要登录某网站的,此时需要提交帐号密码之类的,则需要使用Post Data

在IE中称为request body,chrome中成为Post Data

5.Cookie(可选)

一般来说,模拟登陆的时候往往会涉及到Cookie

6.其他(代理,最大超时时间timeout)

内容分析

1.对于html源码,调用BeautifulSoup

2.正则表达式

 

 

本文参考了http://www.crifan.com/summary_about_flow_process_of_fetch_webpage_simulate_login_website_and_some_notice/

可以说是一个简化版,想看的可以去看原文

PS:博主提供了很多计算机方面的资料,读后帮助很大,有兴趣的可以过去看看

python抓取网页过程

标签:

原文地址:http://www.cnblogs.com/wswang/p/4435093.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!