爬虫基础篇1--爬虫原理

时间：2018-08-25 19:58:12 阅读：198 评论：0 收藏：0 [点我收藏+]

1.什么是爬虫？
请求网站并提取数据的自动化程序（让程序替你去上网）

2.爬虫的基本流程
（1）向服务器发起请求
（2）获取网页内容
（3）解析内容
（4）保存数据

3.什么是request和response
请求与响应：
浏览器与服务器（也是一台计算机）之间的交流。

4.request中包含了什么？
（1）请求方式（get，post）
（2）请求的URL
（3）请求头信息
（4）请求体（例如post请求的表单信息）

5.response中包含了什么？
（1）响应状态码（200 0K 404 NO FOUND）
（2）响应头
（3）响应体

6.爬虫可以抓怎样的数据？
网页文本，图片，视频

7.如何解析？
（1）直接处理
（2）json解析
（3）正则表达式
（4）beautifulsoup解析库（pyquery）

8如何保存数据？
文本，关系型数据库，非关系型数据库（key-value），二进制文本

原文地址：https://www.cnblogs.com/CszShuzi/p/9535029.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

周排行