爬虫框架 Scrapy 使用

时间：2020-06-17 20:27:09 阅读：60 评论：0 收藏：0 [点我收藏+]

标签：排除爬取下载 fir 配置文件 coding firefox 生成爬虫

一、创建爬虫项目

　　1. 创建爬虫项目

　　　　Scrapy　　startproject　　myproject (爬虫项目名)

　　2. myproject项目文件夹中包含：

　　　　1. 同名（myproject）文件夹　　

　　　　2. cfg配置文件（指定项目文件--myproject，指定项目文件的配置文件myspider文件下的setting文件）

　　3. 进入到myproject文件夹中，包含：

　　　　1. spiders文件夹（爬虫文件存放位置）　　

　　　　2. setting文件及其它Scrapy框架的模块文件

　　4. 创建爬虫

　　　　Scrapy　　genspider　　baidu (爬虫文件名)　　baidu.com (要爬取的域名)

　　　　说明：执行命令后，会在spiders文件夹中生成对应的爬虫文件，及代码。

# -*- coding: utf-8 -*-
import scrapy


class BaiduSpider(scrapy.Spider):
    name = ‘baidu‘
    # 允许爬取的域名，可以排除掉页面中其它域名的内容
    allowed_domains = [‘www.baidu.com‘]
    # 起始url
    start_urls = [‘http://www.baidu.com/‘]
    
    # 获取响应数据的接口
    def parse(self, response):
        pass

二、配置爬虫项目

　　1. 配置setting文件

　　第一步：初步修改setting文件

# 请求头user-agent设置
USER_AGENT = ‘Mozilla/5.0 (Windows NT 10.0; …) Gecko/20100101 Firefox/77.0‘

# 是否遵守网站的robots协议
ROBOTSTXT_OBEY = False

# 下载延迟（发送请求的间隔）
DOWNLOAD_DELAY = 3

　　第二步：完善爬虫文件代码

爬虫框架 Scrapy 使用

标签：排除爬取下载 fir 配置文件 coding firefox 生成爬虫

原文地址：https://www.cnblogs.com/leafchen/p/13154146.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行