码迷,mamicode.com
首页 > 其他好文 > 详细

第一次使用scrapy,记下爬过的坑

时间:2018-02-21 22:22:13      阅读:512      评论:0      收藏:0      [点我收藏+]

标签:www.   需要   静态方法   rom   ext   exti   hang   extra   好的   

第一次使用scrapy,记下爬过的坑

1,xpath语法,xpath语法用于选取需要的数据,用过bs4会比较好的理解它,类似于从一目录树查找,

xpath(‘/html/body/div/div‘),这是绝对路径找数据

xpath(‘//*[@id = “niubi”]‘),这是相对路径找数据

还可以选择从绝对路径到某一路径下,找一个“特殊”的数据

xpath(‘//*a/html/body/div1/div2),找div2下的所有a标签

2,找到后,需要实例化,这是第二个坑,实例化有extract()函数,然后才能转换成字符串,之后就能操作数据了

3,在爬虫脚本中,spider中,如果需要定义全局变量,千万不能定义name,估计一些scrapy的关键字也不能定义,不然爬虫莫名死掉

4,回调函数,parse中的值,不能传入回调函数中,不知道是不是我技术不行呢,就是传不进去- - 

5,item,在起始位置,from导入之后,需要在使用的函数内,或者说class中定义静态方法,item = xxxitem(),不然它不认识你的数组,但是在pipeline中却不需要

1 # -*- coding: utf-8 -*- 

import scrapy 

from text.items import TextItem

import sys 

class ExampleSpider(scrapy.Spider): 

    name = "qunimade" 

    allowed_domains = ["biquge.com.tw"]

    start_urls = ( 10 ‘http://www.biquge.com.tw/11_11850‘,) 

    global d,n 

    d = {} 13 n = ‘‘ 

    def parse(self,response): 

        shou = response.xpath(‘/html/body/div/div/div/dl/dd/a/@href‘) 

        wen = response.xpath(‘/html/body/div/div/div/dl/dd/a/text()‘) 

         n = response.xpath(‘/html/body/div/div/div/div/h1/text()‘).extract()[0] 

         x = 1 

         for t in wen.extract(): 

         t.strip() 21 d[t] = x 

        x = x + 1 23 po = ‘http://www.riven.cc‘ 

        for i in shou.extract(): 26 p = po + i 27 yield scrapy.Request(p,callback = self.parse_1) 28 29 30 31 32 def parse_1(self, response): 33 item = TextItem() 34 h1 = response.xpath(‘/html/body/div/div/div/div/h1/text()‘) 35 r = h1[0].extract() 36 r = r.strip() 37 item[‘zhangjie‘] = r 38 tt = d[r] 

第一次使用scrapy,记下爬过的坑

标签:www.   需要   静态方法   rom   ext   exti   hang   extra   好的   

原文地址:https://www.cnblogs.com/91wuxia/p/8457509.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!