【Python3 爬虫】06_robots.txt查看网站爬取限制情况

时间：2018-03-27 12:27:07 阅读：319 评论：0 收藏：0 [点我收藏+]

大多数网站都会定义robots.txt文件来限制爬虫爬去信息，我们在爬去网站之前可以使用robots.txt来查看的相关限制信息

例如：

我们以【CSDN博客】的限制信息为例子

获取到信息如下：

从上图我们可以看出：

①该网站无论用户使用哪种代理都允许爬取

②但是当爬取/css,/images…等链接的时候是禁止的

③我们可以看到还存在一个网址Sitemap,j具体解析如下：

网站提供的Sitemap文件（即网站地图）可以帮助网站定位最新的内容，则无须爬取每一个网页，虽然Sitemap文件提供了一种爬取网站的有效方式，但是我们仍然需要对其谨慎处理，因为该文件经常存在缺失,过期和不完整。

原文地址：https://www.cnblogs.com/OliverQin/p/8656301.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

周排行