标签:目的 通过 存储器 进制 爬取 进一步 不同 程序 视频、
Python开发网络爬虫获取网页数据的基本流程为:
发起请求
通过URL向服务器发起request请求,请求可以包含额外的header信息。
获取响应内容
服务器正常响应,将会收到一个response,即为所请求的网页内容,或许包含HTML,Json字符串或者二进制的数据(视频、图片)等。
解析内容
如果是HTML代码,则可以使用网页解析器进行解析,如果是Json数据,则可以转换成Json对象进行解析,如果是二进制的数据,则可以保存到文件做进一步处理。
保存数据
可以保存到本地文件,也可以保存到数据库(MySQL,Redis,MongoDB等)。
网络爬虫程序框架主要包括以下五大模块:
五大模块功能如下所示:
网络爬虫程序框架的动态运行流程如下所示:
本文简要介绍了Python开发网络爬虫的程序框架,将网络爬虫运行流程按照具体功能划分为不同模块,以便各司其职、协同运作。搭建好网络爬虫框架后,能够有效地提高我们开发网络爬虫项目的效率,避免一些重复造车轮的工作。
标签:目的 通过 存储器 进制 爬取 进一步 不同 程序 视频、
原文地址:https://www.cnblogs.com/yangmi511/p/12448067.html