scrapy框架简介与安装启动

时间：2019-08-09 19:32:13 阅读：83 评论：0 收藏：0 [点我收藏+]

标签：inf 默认 port 信息 install comm path ons url

　　Scrapy 是一个专业的、高效的爬虫框架，它使用专业的 Twisted 包（基于事件驱动的网络引擎包）高效地处理网络通信，使用 lxml（专业的 XML 处理包）、cssselect 高效地提取 HTML 页面的有效信息，同时它也提供了有效的线程管理。

安装scrapy

pip3 install scrapy

在windows如果报错的话按以下方式安装（缺少环境，或者直接下载VS）：
    pip3  install wheel
    下载twisted   https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
    进入下载目录，执行　　pip3 install Twisted?17.1.0?cp35?cp35m?win_amd64.whl
    pip3   install  pywin32
    pip3   install  scrapy

项目创建与启动

#scrapy项目创建
scrapy startproject  xxx(项目名)-----创建爬虫项目
    cd xxx(项目名)--------必须要进入项目文件
    scrapy genspider  xx(爬虫文件)   url(起始url，后期可修改)--------创建爬虫应用
#scrapy项目启动
scrapy crawl xx(爬虫文件)----需要进入爬虫文件所在的目录

scrapy crawl 爬虫文件 --nolog：该种执行形式不会显示执行的日志信息

　　　　技术图片

　项目中创建的默认爬虫文件

 1 import scrapy
 2 
 3 
 4 class FirstbaiduSpider(scrapy.Spider):
 5     name = ‘firstBaidu‘#爬虫文件（应用）名
 6     # allowed_domains = [‘https://www.baidu.com/‘]#域名限定，一般直接注释
 7     start_urls = [‘https://www.baidu.com//‘]#起始url，创建应用时指定的，可修改
 8 
 9     def parse(self, response):#自动访问起始URL并获取结果后的回调函数，参数respons为起始请求的响应对象，可以直接调用封装好的xpath解析
10         pass

默认创建的爬虫文件

scrapy框架简介与安装启动

标签：inf 默认 port 信息 install comm path ons url

原文地址：https://www.cnblogs.com/open-yang/p/11328936.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行