标签:pos pip 参数 baidu 密文 提取 代码 class http
一 爬虫基本原理:
? 1.什么是爬虫?
- 爬取数据
什么是互联网?
- 互联网是由一堆网络设备,将世界上所有的电脑互联到一起;
2.为什么要使用爬虫技术?
- requests 模块底层帮我们封装好了socket套接字,我们只需要关注http协议的通信流程;
- 普通用户获取数据:
- 打开浏览器,输入网址
- 访问目标网站
- 目标网站将数据返回给浏览器
- 浏览器将数据进行渲染
- ctrl + c 、 ctrl + v
- “爬虫程序”获取数据:
- 模拟浏览器往目标网站发送请求:
- 请求库
- requests模块
- selenium模块
- 获取目标网站返回的响应数据
- 服务端会自动将数据返回,无需通过代码实现
- 解析并提取有价值的数据
- 解析模块:
- re正则模块
- BeautifulSoup4解析库: bs4
- xpath解析语法: 通过文档树,查找规则
- selector属性选择解析库: css
- 保存到数据库、或者本地
- 存储库:
- MySQL
- redis
- mongodb
- file
- 爬虫全过程:
- 发送请求
- 获取响应数据
- 解析并提取数据
- 保存数据
- 爬虫三部曲(*******):
1.发送请求(*******)
- 先分析目标网站的http协议请求流程
- 再写代码
2.获取数据
3.保存数据
- 安装
pip3 install requests
标签:pos pip 参数 baidu 密文 提取 代码 class http
原文地址:https://www.cnblogs.com/zfb123-/p/12142752.html