首页 > 其他好文 > 详细

爬虫基础1

时间：2020-04-20 01:32:33 阅读：90 评论：0 收藏：0 [点我收藏+]

标签：3nf top mis imu url gb2312 image ada pps

技术图片
html

爬虫基础

概念

模拟浏览器发送网络请求，获取响应

分类

通用爬虫

搜索引擎的爬虫，面对整个互联网上所有的网站

聚焦爬虫

针对特定网站的爬虫

分类标准：爬虫爬取的范围

流程

1.url

2.发送请求，获取响应 (提取url地址，发送下一次请求)

3.提取数据

保存

rebots协议

道德层面的约束

数据应用

展示数据

进行数据分析等后续工作

HTTPS和HTTP

概念

https: http+ssl

http: 超文本传输协议

https更安全，性能更低

浏览器发送请求的流程

1.url

2.dns服务器获取域名的ip地址

3.请求ip

url对应的响应+css+js+png

注意：浏览器渲染出来的内容(elements)和url地址对应的响应不一样

url

协议

瞄点加不加，返回的响应一样

http协议的内容

1.请求行

2.请求头

User-Agent

用户代理。告诉服务器当前发送请求的是什么样的程序

Cookies

1.获取登录后的页面

2.对方的服务器通过cookie判断程序是否为爬虫

3.请求体

Post请求才有请求体

请求方法

get

post

表单

发送的数据量比较大的时候 (参数较多)

状态码

200：成功

302,307：重定向

404：资源不存在

500：服务器内部错误

字符串处理

str bytes.decode()

bytes str.encode()

Ascii,gbk,unicode字符集

Ascii使用一个字节表示一个字符，unicode使用2个字节表示一个字符

utf-8是unicode的一种实现方式，可变长的编码方式

requests

发送请求

requests.get(url)

获取响应的html字符串

response.content

bytes

response.content.decode()

response.text

str

response.encoding来指定编码格式

解决requests中编码的问题

response.content.decode()

resopnse.content.decode(‘gbk‘)

response.text

gbk<gb2312<gb18030

标签：3nf top mis imu url gb2312 image ada pps

原文地址：https://www.cnblogs.com/wsilj/p/12735281.html

踩

(0)

赞

(0)

举报

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

更多

友情链接

兰亭集智国之画百度统计站长统计阿里云 chrome插件新版天听网

关于我们 - 联系我们 - 留言反馈

© 2014 mamicode.com 版权所有联系我们:gaon5@hotmail.com

迷上了代码！