首页 > 编程语言 > 详细

Python爬虫（学习准备）

时间：2019-11-12 12:55:59 阅读：126 评论：0 收藏：0 [点我收藏+]

标签：http 爬虫请求字符串 robot 特定协议状态码响应状态

编码格式的认识：

字符：各种文字和符号的统称
字符集：多个字符的集合
字符集包括：ASCII字符集，GB2312字符集，GB18030，Unicode字符集等
1个字符ASCII编码占1个字节，用Unicode编码占2个字节
UTF-8是Unicode的实习方式之一，是一种变长的编码方式，可以是1,2,3个字节等

在Python中字符串分为两种类型：

bytes：二进制，互联网上数据都是以二进制传输
str：unicode的呈现方式

str与bytes的转换：

encode（）　　#str->bytes

decode（）　　#bytes->str

a = ‘华南理工大学广州学院‘
print(type(a))　　#<class ‘str‘>
b = a.encode()　　#参数不填默认utf-8编码
print(b)　　
print(type(b))　　#<class ‘bytes‘>
a = b.decode(‘utf-8‘)
print(a)　　#华南理工大学广州学院

Http和Https：

Http

超文本传输协议
默认端口号：80

Https

Http + ssl（安全套接字层）
默认端口号：443

Https比http更安全，但是性能更低（耗时更长）

Url的形式：

技术图片

http请求格式：

http常见请求头：

技术图片

常见响应状态码：

200：成功
302：转移至新的url
307：转移至新的url
404：not found
500：服务器内部错误

爬虫的分类：

通用爬虫：通常指搜索引擎的爬虫
聚焦爬虫：针对特定网站的爬虫

通用爬虫与聚焦爬虫的流程：

技术图片

Robots协议：

网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取

浏览器发送Http请求的过程：

技术图片

浏览器渲染出来的页面与爬虫请求的页面不一样

Python爬虫（学习准备）

标签：http 爬虫请求字符串 robot 特定协议状态码响应状态

原文地址：https://www.cnblogs.com/hhs1998/p/11841021.html

踩

(0)

赞

(0)

举报

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

更多

友情链接

兰亭集智国之画百度统计站长统计阿里云 chrome插件新版天听网

关于我们 - 联系我们 - 留言反馈

© 2014 mamicode.com 版权所有联系我们:gaon5@hotmail.com

迷上了代码！