起始url的调度原理

时间：2020-06-14 01:12:02 阅读：80 评论：0 收藏：0 [点我收藏+]

标签：yield list spider end spi lis cookies turn 调用

# -*- coding: utf-8 -*-
import scrapy
from xdb.items import XdbItem
from scrapy.dupefilters import RFPDupeFilter
from scrapy.http.cookies import CookieJar
from scrapy.http import Request
from urllib.parse import urlencode

class ChoutiSpider(scrapy.Spider):
    name = ‘chouti‘
    allowed_domains = [‘chouti.com‘]
    start_urls = [‘http://chouti.com/‘]
    # start_urls = [‘http://127.0.0.1:80/app01/login/‘]

    ‘‘‘
    scrapy引擎来爬虫中取起始URL：
        1. 调用start_request并获取返回值
        2. v = iter(返回值)
        3. req1 = 执行 v.__next__()
           req2 = 执行 v.__next__()
           req3 = 执行 v.__next__()
    ‘‘‘
    def start_requests(self):
        # 方式一：
        for url in self.start_urls:
            yield Request(url=url, callback=self.parse)
        # 方式二：
        req_list = []
        for url in self.start_urls:
            req_list.append(Request(url=url))
        return req_list

起始url的调度原理

标签：yield list spider end spi lis cookies turn 调用

原文地址：https://www.cnblogs.com/xiongfanyong/p/13122317.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行