编写Python爬虫的简易流程描述

时间：2019-01-19 00:47:19 阅读：215 评论：0 收藏：0 [点我收藏+]

　　python网络爬虫，其实就是模拟人类浏览网页的行为，并将这种行为自动化的工具。

　　从技术上来说，就是利用python代码发送特定的request请求到Web页面，最后获得response，并将response解析，提取其中的数据并存储起来。

　　开发一个爬虫程序，首先要确定目标。例如爬取拉勾网的python相关职位信息是我们的目标。根据这个目标，我们可以先使用手工的方式，访问拉勾网，搜索python相关职位，从而对如何从页面获取所需信息有一个直观的理解。

　　其次，可以使用浏览器自带的开发者工具、抓包工具，对我们发出的请求和接受到的响应进行分析，找出在访问该URL时，浏览器是如何构建request的，使用了哪些参数等，然后对接收到的response进行分析，分析网址是如何响应我们的请求的，是返回HTML，还是返回JSON格式的数据，还是使用Ajax更新页面内容等，并response为依据定位我们需要的信息是属于什么元素的。

　　最后，我们需要思考在获取到所需信息后，如何存储这些信息，是使用文本的方式进行存储，还是存储在数据库里等等。

　　简而言之，编写一个爬虫的简易流程如下：

确定爬虫目标
构建request（请求）
获得response（响应）
解析response，得到数据
存储数据

编写Python爬虫的简易流程描述

标签：根据 res 响应有一个流程提取网络工具需要

原文地址：https://www.cnblogs.com/stonechen/p/10290256.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行