码迷,mamicode.com
首页 > 其他好文 > 详细

爬虫学习 一些有用的函数吧

时间:2015-05-14 20:21:01      阅读:141      评论:0      收藏:0      [点我收藏+]

标签:

1.geturl---- 获取真实的url

from urllib.request import Request, urlopen
from urllib.error import URLError, HTTPError

old_url = ‘http://rrurl.cn/b1UZuP‘
req = Request(old_url)
response = urlopen(req)
print (‘Old url :‘ + old_url)
print (‘Real url :‘ + response.geturl())

 

 

2.info()----这个返回对象的字典对象,该字典描述了获取的页面情况。通常是服务器发送的特定头headers。目前是httplib.HTTPMessage 实例。

经典的headers包含"Content-length","Content-type",和其他内容。

from urllib.request import Request, urlopen
from urllib.error import URLError, HTTPError

old_url = ‘http://www.sina.com‘
req = Request(old_url)
response = urlopen(req)
print (‘Info():‘)
print (response.info())

 

爬虫学习 一些有用的函数吧

标签:

原文地址:http://www.cnblogs.com/my-time/p/4504109.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!