Scrapy的使用

时间：2019-03-08 22:02:52 阅读：191 评论：0 收藏：0 [点我收藏+]

标签：item ems desc esc append 有用初始内容 spi

建立好项目以后,在项目文件内scrapy会搭好框架,我们只需要按照框架设置.

先定义Item 它是保存爬取到的数据的容器,其使用方法和python的字典类似,并且提供了额外保护机制来避免拼写错误导致的未定义字段错误.

然后编写爬虫类spider, spider是用户编写用于从网站上爬取数据的类.其包含了一个用于下载的初始URL,然后是如何跟进网页中的链接以及如何分析页面中的内容,还有提起生产ltem的方法.

Selector是一个选择器,它有四个基本的方法:

xpath():传入xpath表达式,返回该表达式所对应的所有节点的selector list列表,xpath是一门在网页中查找特定信息的语言,所有用XPath来筛选数据,比正则要容易些

css() 传入CSS表达式,返回该表达式所对应的所有节点的selector list列表

extract() 序列化该节点为unicode字符串并返回list

re() 根据传入的正则表达式对数据进项提取,返回unicode字符串list列表

import scrapy

from douban.items import DmozItem

class DmozSpider(scrapy.Spider):
name=‘dmoz‘ #爬虫的名字
allowed_domains=[‘dmoztoos.net‘] #爬取的范围
start_urls=[
‘http://www.dmoztools.net/Reference/Archives/Arts/Film/‘
]

def parse(self,response):
#filename=response.url.split(‘/‘)[-2]
#with open(filename,‘wb‘) as f:
#f.write(response.body)
sel=scrapy.selector.Selector(response)
sites=sel.xpath(‘//section/div/div/div/div[@class="title-and-desc"]‘)
items=[]
for site in sites:
item=DmozItem()
item[‘title‘]=site.xpath(‘a/div/text()‘).extract()
item[‘link‘]=site.xpath(‘a/@href‘).extract()
item[‘desc‘]=site.xpath(‘div[@class="site-descr "]/text()‘).extract()
items.append(item)

return items

scrapy crawl dmoz -o items.json -t json 此命令是爬虫最后导出json文件的命令

Scrapy的使用

标签：item ems desc esc append 有用初始内容 spi

原文地址：https://www.cnblogs.com/009NotFound/p/10498465.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行