爬虫简介

时间：2019-09-18 14:30:04 阅读：126 评论：0 收藏：0 [点我收藏+]

爬虫就是通过编写程序模拟浏览器上网，然后让其去互联网上抓取数据的过程。

2.聚焦爬虫：聚焦爬虫是根据指定的需求抓取网络上指定的数据。例如：获取豆瓣上电影的名称和影评，而不是获取整张页面中所有的数据值。

robots.txt协议
- 如果自己的门户网站中的指定页面中的数据不想让爬虫程序爬取到的话，那么则可以通过编写一个robots.txt的协议文件来约束爬虫程序的数据爬取。robots协议的编写格式可以观察淘宝网的robots（访问www.taobao.com/robots.txt即可）。但是需要注意的是，该协议只是相当于口头的协议，并没有使用相关技术进行强制管制，所以该协议是防君子不防小人。但是我们在学习爬虫阶段编写的爬虫程序可以先忽略robots协议。
反爬虫
- 门户网站通过相应的策略和技术手段，防止爬虫程序进行网站数据的爬取。
反反爬虫
- 爬虫程序通过相应的策略和技术手段，破解门户网站的反爬虫手段，从而爬取到相应的数据。

原文地址：https://www.cnblogs.com/bilx/p/11541741.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

周排行