scrapy爬虫案例

时间：2020-03-25 10:24:41 阅读：58 评论：0 收藏：0 [点我收藏+]

标签：red -o als style click bsp lte parse 位置

一个简单的爬虫案例

from scrapy_redis.spiders import RedisSpider
import os,urllib.request,time

class XiaohuaSpider(scrapy.Spider):
    name = ‘xiaohua‘
    allowed_domains = [‘90xiaohua.com‘]
    start_urls = [‘http://90xiaohua.com//‘]
    file_path = r‘D:\python_code\spider\item\item\img‘ # 图片保存位置

    def parse(self, response):
        time.sleep(1)
        li_list = response.xpath(‘//ul[@class="f-cb"]/li‘)
        print(response.request.url, response.meta.get(‘depth‘, 0))
        for item in li_list:
            # 获取img 信息
            data=item.xpath(‘.//a/img/@data-original‘).extract_first()
            if not data:
                continue

            src=‘http://90xiaohua.com%s‘%(data)
            src_img = data.rsplit(‘/‘,1)[1]  # 获取图片名称

            img = os.path.join(self.file_path, src_img)
            urllib.request.urlretrieve(src, img)   # 下载图片，保存到指定位置

        #分页
        page_list = response.xpath(‘//div[@class="m-page m-page-sr m-page-sm"]//a/@href‘).extract()
        for num in page_list:
            page = ‘http://90xiaohua.com/‘ + num
            yield Request(url=page, callback=self.parse, dont_filter=False)
            print(page)

案例

scrapy爬虫案例

标签：red -o als style click bsp lte parse 位置

原文地址：https://www.cnblogs.com/hbfengjun/p/12564314.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行