码迷,mamicode.com
首页 > 其他好文 > 详细

Hello to Scrapy

时间:2020-03-19 22:06:52      阅读:74      评论:0      收藏:0      [点我收藏+]

标签:rip   attr   read   vat   pts   目录   sel   osc   rtu   

步骤

  1. 安装 Python,版本选择 Python 3,原因看这里:https://wiki.python.org/moin/Python2orPython3

  2. 创建 virtual environment(venv)

    # 在当前目录创建虚拟环境
    python -m venv .
    
    # 激活虚拟环境
    .\Scripts\Activate.ps1
  3. 安装 pip

    # 升级 pip 版本
    # -i 用来指定 pipy 源
    python -m pip install --upgrade pip -i https://pypi.tuna.tsinghua.edu.cn/simple
  4. 安装 Scrapy

    pip install Scrapy -i https://pypi.tuna.tsinghua.edu.cn/simple
  5. 写脚本 quotes_spider.py

    import scrapy
    
    
    class QuotesSpider(scrapy.Spider):
       name = 'quotes'
       start_urls = [
          'http://quotes.toscrape.com/tag/humor/',
       ]
    
       def parse(self, response):
          for quote in response.css('div.quote'):
                yield {
                   'author': quote.xpath('span/small/text()').get(),
                   'text': quote.css('span.text::text').get(),
                }
    
          next_page = response.css('li.next a::attr("href")').get()
          if next_page is not None:
                yield response.follow(next_page, self.parse)
  6. 执行脚本

    scrapy runspider quotes_spider.py -o quotes.json

参考

Hello to Scrapy

标签:rip   attr   read   vat   pts   目录   sel   osc   rtu   

原文地址:https://www.cnblogs.com/nehcdahc/p/12527121.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!