标签:nbsp llb parse actor tor scrapy 子类 提取 正则表达
启动命令 :
1、创建项目文件
scrapy startproject 项目名称
2、cd 项目文件
3、创建爬虫
scrapy genspider -t crawl 爬虫名称 域名
语句作用:
1、link = LinkExtractor(allow=r‘Items/‘)
link是链接提取器,根据一定规则提取某类链接
allow:表示的就是链接提取器提取链接的规则(这里面的规则是正则表达式)
2、
rules = (
Rule(link, callback=‘parse_item‘, follow=False),
)
Rule是规则解析器,将链接提取器提取到的链接对应的页面数据进行指定形式的解析
follow 是让链接提取器 继续作用到链接提取器提取到的链接所对应的页面中
参数:
False 不作用
True 作用
callback 回调函数,里面写link携带的内容的解析
其余内容:
与scrapy内容一致,因为crawlSpider就是Spider的一个子类,所以很多功能都是与Spider是一样的,所以大家熟练使用Spider,上手crawlSpider就很容易了
标签:nbsp llb parse actor tor scrapy 子类 提取 正则表达
原文地址:https://www.cnblogs.com/ifiwant/p/11756727.html