码迷,mamicode.com
首页 > 编程语言 > 详细

python爬虫urllib库使用

时间:2018-11-06 14:37:12      阅读:120      评论:0      收藏:0      [点我收藏+]

标签:header   int   pytho   异常处理   实现   模块   需要   bubuko   ror   

urllib包括以下四个模块:

  1.request:基本的HTTP请求模块,可以用来模拟发送请求。就像在浏览器里输入网址然后回车一样,只需要给库方法传入URL以及额外的参数,就可以模拟实现这个过程。

  2.error:异常处理模块

  3.parse:提供了许多URL处理方法,如拆分、解析、合并等

  4.robotparser:主要用来识别网站的robots.txt文件,判断哪些网站可以爬(很少用)

1.1发送请求

  1urlopen()

import urllib.request
response = urllib.request.urlopen(https://baike.baidu.com/item/csdn/172150?fr=aladdin)
print(response.read().decode(UTF-8)) #read()返回网页内容

结果:

技术分享图片

#查看返回类型
import
urllib.request response = urllib.request.urlopen(https://baike.baidu.com/item/csdn/172150?fr=aladdin) print(type(response))

技术分享图片

status属性

import urllib.request
response = urllib.request.urlopen(https://baike.baidu.com/item/csdn/172150?fr=aladdin)
print(response.status)
print(response.getheaders())
print(response.getheader(Server))

技术分享图片

 

python爬虫urllib库使用

标签:header   int   pytho   异常处理   实现   模块   需要   bubuko   ror   

原文地址:https://www.cnblogs.com/alex-xxc/p/9914831.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!