爬虫——基本原理

时间：2019-01-24 01:13:28 阅读：141 评论：0 收藏：0 [点我收藏+]

一、概述

简单来说，爬虫就是获取网页并提取和保存信息的自动化程序。

1.获取网页

使用urllib、request可以向网站的服务器发送一个请求，服务器返回的是网页的源代码。

2.提取信息

当我们获取到网页源代码之后，我们需要分析网页源代码，并从中提取我们想要的数据。最通常的办法是使用正则表达式提取，这是一个万能的办法，但是在构造正则表达式时比较复杂且容易出错。

另外，由于网页的结构具有一定的规则，所以还有一些网页节点属性、CSS选择器或者XPath来提取网页信息的库，如BS、pyquery、lxml等。使用这些库，我们可以高校的爬去信息，如节点的属性、文本值等待。

3.保存数据

提取信息以后，我们需要将提取到数据保存到某处以便今后使用。保存形式可以为TXT文本或者JSON文本，也可以保存到数据库，如MySQL和MongoDB等。也可以保存奥远程服务器，如借助SFTP进行操作等。

4.自动化程序

说到自动化程序，意思是说爬虫可以代替人完成这些操作。首先，手工可以提取这些信息，但是当信息量特别大或者想快速获取大量数据时，肯定还是要借助程序。爬虫就是来替我们完成这份爬取工作的自动化程序，它可以在抓取过程中进行各种异常处理、错误重试等操作，确保高效地运行。

原文地址：https://www.cnblogs.com/2sheep2simple/p/10312203.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

周排行