mooc python网络信息获取第一周

时间：2019-09-12 21:03:42 阅读：113 评论：0 收藏：0 [点我收藏+]

标签：war 引擎问题 http协议 scrapy erro 等等 oom 答复

一、环境

IDLE,Subline Text,PyCharm，Anaconda & Spyder。

二、requests库

1.安装

cmd:pip install requests

2.七方法

requests.request(method, url , **kwarge) 构造请求支撑以下各种方法的基础方法，method :get post head put patch delete options；

requests.get（url，params=None,**kwargs）获取HTML网页的主要方法，对应与http的get；

requests.head（url,**kwargs）获取HTML网页头信息的方法，对应与http的head；

requests.post（url,data=None,json=None,**kwargs）向HTML网页提交post请求的方法，对应与http的post；

requests.put（url,data=None,**kwargs）向HTML网页提交put请求的方法，对应与http的put；

requests.patch（url,data=None,**kwargs）向HTML网页提交局部修改请求，对应与http的patch；

requests.delete（url,data=None,**kwargs）向HTML网页提交删除请求，对应与http的delete

；

3.http对requests库方法的变动：1.post 请求向url位置后的资源附加新的数据 2.put 请求向url的位置加入一个新的资源，并覆盖原来的url资源

4.requests.get(url,params=None,**kwargs) params:url中的额外参数，字典或者字节流格式 **kwargs：12个控制访问的参数

5.最重要的两个对象：request，response

6.response对象的属性

r.status_code http请求的返回状态 200表成功 404表失败；

r.text http响应内容的字符串形式；

r.encoding 从http header中猜测的相应内容编码方式；

r.apparent_encoding 从内容中分析出的响应内容编码方式（备选编码方式）；

r.content http响应内容的二进制形式；

7.Requests库返回的几种异常

requests.HTTPError HTTP错误异常；

requests.URL.Required URL缺失异常；

requests.ConnectionError 网络连接错误异常如：dns查询失败，拒绝连接等等；

requests.TooManyRedireets 超过最大重定向次数产生重定向异常；

requests.ConnectTimout 连接远程服务器超时异常；

requests.Timeout 请求URL超时，产生超时异常；

8.r.raise_for_status() 如果不是200，产生异常requests.HTTPError 能判断response对象的状态是不是200

9.**kwargs 可选的参数

params=字典或字节序列作为参数加到url中，并让服务器应答的时候和url一起答复；

json=json格式的数据作为request的内容；

headers 定制访问的url的http头可用来模拟不同的浏览器；

data=字典或字节序列或文件对象作为request的内容；

cookies：字典或cookieJaar，request中的cookie；

auth：元组，支持http认证功能；

files：字典类型，传输文件；

timeout 设定超时时间，秒为单位；

proxies字典类型，设定访问代理费服务器，可以增加登陆认证

10.网络爬虫的尺寸

爬网页：小规模，数据量小，爬取速度不敏感，常用request库

爬网站：中规模，数据量较大，速度敏感，scrapy库

爬全网：大规模，搜索引擎，速度关键，定制开发。

11.爬虫危害：骚扰问题，法律风险，隐私泄露

12.爬虫的限制

开源审查：判断user-Agent进行限制，检查来访http协议头的User-Agent域，只响应相应浏览器或友好爬虫的访问；

发布公告：Robots协议告知所有爬虫网站的爬取策略，要求爬虫遵守，Robots协议（Robots Exclusion Standard 网络爬虫排除标准）作用：网站告知网络爬虫哪些页面可以抓取哪些不行形式：在网站根目录下的robots.tet文件。非强制性

小菜鸡的进程~

mooc python网络信息获取第一周

标签：war 引擎问题 http协议 scrapy erro 等等 oom 答复

原文地址：https://www.cnblogs.com/hongyuz/p/11514866.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行