码迷,mamicode.com
首页 > 其他好文 > 详细

scrapy的allowed_domains设置含义

时间:2017-12-11 14:08:35      阅读:766      评论:0      收藏:0      [点我收藏+]

标签:爬取   image   war   /usr   back   rar   col   含义   middle   

设置allowed_domains的含义是过滤爬取的域名,在插件OffsiteMiddleware启用的情况下(默认是启用的),不在此允许范围内的域名就会被过滤,而不会进行爬取

技术分享图片

但是有一个问题:像下面这种情况,对于start_urls里的起始爬取页面,它是不会过滤的,它的作用是过滤首页之后的页面-----待验证

#/usr/bin/env python
#coding:utf-8
import scrapy
# import sys
# import os
from scrapy_study.items import DemoItem

class DemoScrapy(scrapy.Spider):
    name = demoscrapy
    
    # start_urls = [‘http://scrapy-chs.readthedocs.io/zh_CN/1.0/intro/tutorial.html‘]
    allowed_domains = ["scrapypython.2org"]
    # start_urls = [‘https://docs.python.org/2/library/os.path.html‘]
    start_urls = [http://yogoup.sinaapp.com/]
    def parse(self,response):
        print response.body

 

scrapy的allowed_domains设置含义

标签:爬取   image   war   /usr   back   rar   col   含义   middle   

原文地址:http://www.cnblogs.com/shengulong/p/8022024.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!