码迷,mamicode.com
首页 > 其他好文 > 详细

scrapy爬虫的编写步骤

时间:2019-01-17 16:52:21      阅读:241      评论:0      收藏:0      [点我收藏+]

标签:下载   pipeline   ide   tin   pat   url   setting   爬虫   过滤   

scrapy的步骤:
a.编写item,爬取的各个属性
b.编写spider,name 要和 scrapy crawl xxspider一致,里面编写parse的信息,就是xpath获取item的各个信息。同时获取下一个要爬取的url放入url_set()队列
c.pipeline,item的数据落地
d.setting的设置

4. 手写一个爬虫框架:
1.下载网页
2.过滤网页
3.数据落地

5. 手写一个建议爬虫的方法
1.下载网页
2.获取网页相关数据
3.数据落地
4.获取下一页地址
5.循环

scrapy爬虫的编写步骤

标签:下载   pipeline   ide   tin   pat   url   setting   爬虫   过滤   

原文地址:https://www.cnblogs.com/dzhou/p/10283051.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!