码迷,mamicode.com
首页 > 编程语言 > 详细

Python爬虫(学习准备)

时间:2019-11-12 12:55:59      阅读:126      评论:0      收藏:0      [点我收藏+]

标签:http   爬虫   请求   字符串   robot   特定   协议   状态码   响应状态   

 

编码格式的认识:

  1. 字符:各种文字和符号的统称
  2. 字符集:多个字符的集合
  3. 字符集包括:ASCII字符集,GB2312字符集,GB18030,Unicode字符集等
  4. 1个字符ASCII编码占1个字节,用Unicode编码占2个字节
  5. UTF-8是Unicode的实习方式之一,是一种变长的编码方式,可以是1,2,3个字节等

 

在Python中字符串分为两种类型:

  • bytes:二进制,互联网上数据都是以二进制传输
  • str:unicode的呈现方式

 

str与bytes的转换:

encode()  #str->bytes

decode()  #bytes->str

a = ‘华南理工大学广州学院‘
print(type(a))  #<class ‘str‘>
b = a.encode()  #参数不填默认utf-8编码
print(b)  
print(type(b))  #<class ‘bytes‘>
a = b.decode(‘utf-8‘)
print(a)  #华南理工大学广州学院

 

Http和Https:

Http

  • 超文本传输协议
  • 默认端口号:80

Https

  • Http + ssl(安全套接字层)
  • 默认端口号:443

Https比http更安全,但是性能更低(耗时更长)

 

Url的形式:

技术图片

 

 

 

http请求格式:

技术图片

 

 

 

http常见请求头:

技术图片

 

 

常见响应状态码:

  • 200:成功
  • 302:转移至新的url
  • 307:转移至新的url
  • 404:not found
  • 500:服务器内部错误

 

爬虫的分类:

  • 通用爬虫:通常指搜索引擎的爬虫
  • 聚焦爬虫:针对特定网站的爬虫

 

通用爬虫与聚焦爬虫的流程:

技术图片

 

 

 

 

Robots协议:

 

网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取

 

 

 

浏览器发送Http请求的过程:

技术图片

 浏览器渲染出来的页面与爬虫请求的页面不一样

 

 

Python爬虫(学习准备)

标签:http   爬虫   请求   字符串   robot   特定   协议   状态码   响应状态   

原文地址:https://www.cnblogs.com/hhs1998/p/11841021.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!