码迷,mamicode.com
首页 > 编程语言 > 详细

【Python3 爬虫】06_robots.txt查看网站爬取限制情况

时间:2018-03-27 12:27:07      阅读:319      评论:0      收藏:0      [点我收藏+]

标签:border   bubuko   网站   css   isp   一个   python3   back   解析   

大多数网站都会定义robots.txt文件来限制爬虫爬去信息,我们在爬去网站之前可以使用robots.txt来查看的相关限制信息

例如:

我们以【CSDN博客】的限制信息为例子

在浏览器输入:https://blog.csdn.net/robots.txt

获取到信息如下:

技术分享图片

从上图我们可以看出:

①该网站无论用户使用哪种代理都允许爬取

②但是当爬取/css,/images…等链接的时候是禁止的

③我们可以看到还存在一个网址Sitemap,j具体解析如下:

   网站提供的Sitemap文件(即网站地图)可以帮助网站定位最新的内容,则无须爬取每一个网页,虽然Sitemap文件提供了一种爬取网站的有效方式,但是我们仍然需要对其谨慎处理,因为该文件经常存在缺失,过期和不完整。

【Python3 爬虫】06_robots.txt查看网站爬取限制情况

标签:border   bubuko   网站   css   isp   一个   python3   back   解析   

原文地址:https://www.cnblogs.com/OliverQin/p/8656301.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!