码迷,mamicode.com
首页 > 其他好文 > 详细

scrapy爬虫框架

时间:2017-05-17 17:25:26      阅读:143      评论:0      收藏:0      [点我收藏+]

标签:load   方式   cto   logs   容器   path   rac   com   bsp   

技术分享

downloader:负责下载html页面

spider:负责爬取页面内容,我们需要自己写爬取规则  srapy提供了selector,获取的方式有xpath,css,正则,extract 

item容器:spider获取到的内容放到item中

schedul:负责调度    

scrapy爬虫框架

标签:load   方式   cto   logs   容器   path   rac   com   bsp   

原文地址:http://www.cnblogs.com/caojunjie/p/6868195.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!