码迷,mamicode.com
首页 > 其他好文 > 详细

scrapy框架简介与安装启动

时间:2019-08-09 19:32:13      阅读:83      评论:0      收藏:0      [点我收藏+]

标签:inf   默认   port   信息   install   comm   path   ons   url   

  Scrapy 是一个专业的、高效的爬虫框架,它使用专业的 Twisted 包(基于事件驱动的网络引擎包)高效地处理网络通信,使用 lxml(专业的 XML 处理包)、cssselect 高效地提取 HTML 页面的有效信息,同时它也提供了有效的线程管理。

安装scrapy

pip3 install scrapy

在windows如果报错的话按以下方式安装(缺少环境,或者直接下载VS):
    pip3  install wheel
    下载twisted   https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
    进入下载目录,执行  pip3 install Twisted?17.1.0?cp35?cp35m?win_amd64.whl
    pip3   install  pywin32
    pip3   install  scrapy

项目创建与启动

#scrapy项目创建
scrapy startproject xxx(项目名)-----创建爬虫项目
cd xxx(项目名)--------必须要进入项目文件
scrapy genspider xx(爬虫文件) url(起始url,后期可修改)--------创建爬虫应用
#scrapy项目启动
scrapy crawl xx(爬虫文件)----需要进入爬虫文件所在的目录
scrapy crawl 爬虫文件 --nolog:该种执行形式不会显示执行的日志信息

    技术图片

    技术图片

 项目中创建的默认爬虫文件
技术图片
 1 import scrapy
 2 
 3 
 4 class FirstbaiduSpider(scrapy.Spider):
 5     name = firstBaidu#爬虫文件(应用)名
 6     # allowed_domains = [‘https://www.baidu.com/‘]#域名限定,一般直接注释
 7     start_urls = [https://www.baidu.com//]#起始url,创建应用时指定的,可修改
 8 
 9     def parse(self, response):#自动访问起始URL并获取结果后的回调函数,参数respons为起始请求的响应对象,可以直接调用封装好的xpath解析
10         pass
默认创建的爬虫文件

 

 

 


 

 

 

scrapy框架简介与安装启动

标签:inf   默认   port   信息   install   comm   path   ons   url   

原文地址:https://www.cnblogs.com/open-yang/p/11328936.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!