码迷,mamicode.com
首页 > 其他好文 > 详细

爬虫下载文档的3种方法

时间:2019-08-08 14:56:02      阅读:170      评论:0      收藏:0      [点我收藏+]

标签:import   request   爬虫   code   href   cookielib   tco   方法   uil   

import urllib2,cookielib

url = ‘http://www.baidu.com

print "1"
response = urllib2.urlopen(url)
print response.getcode()
print len(response.read())

print "2"
request = urllib2.Request(url)
request.add_header("user-Agent","Mozilla/5.0")
response2 = urllib2.urlopen(request)
print response2.getcode()
print len(response2.read())

print "3"
cj = cookielib.CookieJar()
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
urllib2.install_opener(opener)
response3 = urllib2.urlopen(url)
print response3.getcode()
print cj
print response3.read()

爬虫下载文档的3种方法

标签:import   request   爬虫   code   href   cookielib   tco   方法   uil   

原文地址:https://blog.51cto.com/12607410/2427643

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!