码迷,mamicode.com
首页 > 其他好文 > 详细

scrapy框架

时间:2020-09-18 03:08:48      阅读:31      评论:0      收藏:0      [点我收藏+]

标签:article   不可   image   pre   下载   python   技术   ons   size   

什么是scrapy框架:

scrapy是一个基于Twisted异步框架的爬虫框架,scrapy具有异步性,效率高。
scrapy是用于爬取结构化数据
适合构建大型爬虫应用。

scrapy安装配置
lxml, wheel, Twisted, pywin32, scrapy

  

项目的常见与运行

创建:

  

1. scrapy startproject 文件名
2.cd 文件名
3.scrapy genspider 目录名 域名

   

运行:

scrapy crawl 目录名
scrapy crawl 目录名 --nolog 加个--nolog取消日志 但不会提示报错吗

  

爬虫:

# 爬虫类
# scrapy.Spider爬虫类, 最牛逼的一个爬虫类
class ZetaotaigouSpider(scrapy.Spider):
    # name为爬虫名
    # name唯一的标识了爬虫, 运行爬虫的时候会用的到, 所以爬虫名必须有, 且不能重复
    # 有时候运行并不需要爬虫名, 但是爬虫名不可以删掉, 删掉了就不是爬虫类
    name = ‘zetaotaigou‘

    # allow: 允许, domain: 域名
    # allowed_domains限定爬虫爬取的范围的.
    # allowed_domains = [‘baidu.com‘]

    # start_urls: 起始url
    # 项目一启动, 会自动的对start_urls中的url发起请求
    start_urls = [‘http://www.kekenet.com/Article/15577/‘]

  

五大核心组件与数据流向

组件: 爬虫   引擎  调度器  下载器   管道

 

数据流向:

爬虫  --(1.请求) --> 引擎 -- (2.请求) --> 调度器 --(3.请求) -->引擎 -- (4.请求) -->下载器 -- (5.请求) -->服务器-- (6.响应) -->下载器 -- (7.响应) -->引擎 -- (8.响应) --> 爬虫 --(9.item) -->管道

技术图片

scrapy框架中的数据解析

response.xpath("xpath表达式")

response.css("css选择器")

技术图片

 

scrapy框架

标签:article   不可   image   pre   下载   python   技术   ons   size   

原文地址:https://www.cnblogs.com/gaodenghan/p/13679600.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!