微专业Python爬虫工程师

时间：2020-02-17 12:22:42 阅读：164 评论：0 收藏：0 [点我收藏+]

百度云盘

什么是爬虫？

爬虫可以做什么？

爬虫的本质

爬虫的基本流程

什么是request&response

爬取到数据该怎么办

什么是爬虫？

网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

其实通俗的讲就是通过程序去获取web页面上自己想要的数据，也就是自动抓取数据

爬虫可以做什么？

你可以爬取小姐姐的图片，爬取自己有兴趣的岛国视频，或者其他任何你想要的东西，前提是，你想要的资源必须可以通过浏览器访问的到。

爬虫的本质是什么？

上面关于爬虫可以做什么，定义了一个前提，是浏览器可以访问到的任何资源，特别是对于知晓web请求生命周期的学者来说，爬虫的本质就更简单了。爬虫的本质就是模拟浏览器打开网页，获取网页中我们想要的那部分数据。

浏览器打开网页的过程：

1、在浏览器的输入地址栏，输入想要访问的网址。

2、经过DNS服务器找到服务器主机，向服务器发送一个请求

3、服务器经过解析处理后返回给用户结果（包括html，js，css文件等等内容）

4、浏览器接收到结果，进行解释通过浏览器屏幕呈现给用户结果

上面我们说了爬虫的本质就是模拟浏览器自动向服务器发送请求，获取、处理并解析结果的自动化程序。

爬虫的关键点：模拟请求，解析处理，自动化。

爬虫的基本流程

发起请求

通过HTTP库向目标站点发起请求（request），请求可以

包含额外的header等信息，等待服务器响应

获取响应内容
如果服务器能正常响应，会得到一个Response，Response的内容便是所要获取的页面内容，类型可能是HTML,Json字符串，二进制数据（图片或者视频）等类型

解析内容
得到的内容可能是HTML,可以用正则表达式，页面解析库进行解析，可能是Json,可以直接转换为Json对象解析，可能是二进制数据，可以做保存或者进一步的处理

保存数据
保存形式多样，可以存为文本，也可以保存到数据库，或者保存特定格式的文件

微专业Python爬虫工程师

标签：机器本质 com 响应模拟社区解释 python 额外

原文地址：https://www.cnblogs.com/nlong/p/12320966.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行