scrapy snippet

时间：2014-10-01 19:29:51 阅读：186 评论：0 收藏：0 [点我收藏+]

1. spider文件

from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.selector import HtmlXPathSelector

item = DomzItem()
image_urls = hxs.select(‘//img/@src‘).extract()
item[‘image_urls‘] = ["http:" + x for x in image_urls]
return item

from scrapy.selector import HtmlXPathSelector
hxs = HtmlXPathSelector(response)

name = "wikipedia"
allowed_domains = ["wikipedia.org"]
start_urls = [
　　"http://en.wikipedia.org/wiki/Pune"
]

2. setting文件

ITEM_PIPELINES = [‘scrapy.contrib.pipeline.images.ImagesPipeline‘]
IMAGES_STORE= ‘...‘

3. item 文件

 image_urls = Field()
 images = Field()

scrapy snippet

标签：blog http ar for 文件 sp div art c

原文地址：http://www.cnblogs.com/bushe/p/4003392.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行