码迷,mamicode.com
首页 > 其他好文 > 详细

scrapy初试水 day03(递归调用)

时间:2017-11-29 22:46:58      阅读:156      评论:0      收藏:0      [点我收藏+]

标签:parse   text   就是   res   pat   python   --   ret   yield   

import scrapy
from scrapy.http import Request
from scrapy.spider import Rule
from scrapy.linkextractors import LinkExtractor
# yield 就是return返回的是一个生成器
# 递归:1.修改allowed_domains,里面不能随便写,和正则匹配一样,链接必须满足allowed_domains里的格式
# 2.request = Request(urls[0], callback=self.parse)#回调自己的parse方法
# yield request
class DmozSpider(scrapy.Spider):
name = "use_scrapy_recursion" #要调用的名字
allowed_domains = ["zhaopin.com"] #分一个域
start_urls = [#所有要爬路径
"http://sou.zhaopin.com/jobs/searchresult.ashx?jl=%E5%8C%97%E4%BA%AC&kw=python&sm=0&p=1"
]
#每爬完一个网页会回调parse方法
def parse(self, response):
print(‘-------处理职位-----------‘)
hxsObj = response.xpath(‘//a[@class="next-page"]‘)
print(‘---------------------‘)
if len(hxsObj)==1:
urls = hxsObj[0].select("@href").extract()
text = hxsObj[0].select("text()").extract()
print(urls[0])
print(text)
request = Request(urls[0], callback=self.parse)#回调自己的parse方法
yield request

scrapy初试水 day03(递归调用)

标签:parse   text   就是   res   pat   python   --   ret   yield   

原文地址:http://www.cnblogs.com/qieyu/p/7922987.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!