码迷,mamicode.com
首页 > 其他好文 > 详细

一个令人着迷的爬虫框架——Scrapy框架!

时间:2019-01-08 15:03:29      阅读:118      评论:0      收藏:0      [点我收藏+]

标签:安装   py3   小伙伴   spider   情况下   解释   监测   网络   class   

在平常的知识传播中,我经常遇到许多的小伙伴说,Python爬虫还厉害喔,我想学,或者是我已经初学了Python,但是爬虫还是没有接触,能教教我吗?看到小伙伴有如此热情,我决定来带大家探讨探讨Python爬虫!

技术分享图片

 

在探讨爬虫之前,我们首先来带大家了解下 Scrapy 框架,我们先来解答三个问题:什么是 Scrapy 框架呢?它有什么作用呢?为什么需要使用它?(这个有基础的想必解答不难)

如果大家在学习Python的路上,或者打算学习Python需要学习资料,可以私信小编发送1314,小编将免费赠送大家学习资料喔!

Scrapy 是 Python 开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取 web 站点并从页面中提取结构化的数据。

Scrapy 用途广泛,可以用于数据挖掘、监测和自动化测试。

为什么需要使用它?Scrapy 是一个写好的框架,不用重复造轮子,scapy 底层是异步框架 twisted ,吞吐量高,并发是最大优势。

Scrapy 安装

我电脑上同时装了 py2 和 py3,在 py3 环境里安装 Scrapy,使用以下命令。

技术分享图片

 

如果你的电脑只安装了一个 python 版本,直接使用 pip install xxx 即可。

如果上面方法安装失败的话就分下面两步骤安装:

1 首先安装 Twisted ,使用以下命令

技术分享图片

 

命令安装报错的话就去对应网站选择对应版本下载 whl,我的 python3.6,系统是 64 位,所以我下载的是 Twisted?18.7.0?cp36?cp36m?win_amd64.whl。下载后使用 pip 命令安装 whl 文件。

2 安装 scrapy 框架

技术分享图片

 

创建爬虫项目

创建储存 scrapy 文件夹 scrapypy3,cmd 进入到路径,用 scrapy startproject 命令新建项目。(温馨提示:代码显示不全的话向右轻轻滑动即可查看全部代码)

技术分享图片

 

Scrapy 项目目录结构

新建的爬虫项目文件有以下部分组成,将整个文件在编辑器 Pycharm 中打开看得很明显,文件后面我做了中文解释。

 

技术分享图片

 

创建项目参数

刚才用 scrapy startproject 创建了爬虫项目,创建的时候我们也可以加入一些参数,具体有哪些参数呢?我们可以在命令行通过 scrapy startproject -h查看,以下常见的命令给出了相应的中文注释。(温馨提示:代码显示不全的话向右轻轻滑动即可查看全部代码)

技术分享图片

 

常用工具命令

Scrapy 中,工具命令分为两种,一种为全局命令,一种为项目命令。

全局命令

在不进入Scrapy 爬虫项目所在目录的情况下,运行 scrapy -h,在commands下会出现所有的全局命令。

技术分享图片

 

项目命令

首先进入一个已经创建的 Scrapy 爬虫项目,运行 scrapy -h 显示项目中可用命令。在展示出来的命令中,包括了上面讲到的全局命令。全局命令既可以在非 Scrapy 爬虫项目文件夹中使用,同时也可以在 Scrapy 爬虫项目文件夹中使用,而 Scrapy 项目命令一般只能在 Scrapy 爬虫项目文件夹中使用。去掉全局命令,剩下的就是Scrapy项目命令。

所以,Scrapy 的项目命令主要有:bench、check、crawl、edit、genspider、list、parse。

技术分享图片

 

这篇文章给大家讲了下 Scrapy 框架的安装和常用的命令,这只是初步了解,之后会在实战中使用,项目实战才是我们的最终目的。未完待续。。。

写在最后:

如果大家在学习Python的路上,或者打算学习Python需要学习资料,可以加群571799375,群里学习资料免费赠送大家学习资料喔!

本文来自网络,如有侵权,请联系小编删除!

一个令人着迷的爬虫框架——Scrapy框架!

标签:安装   py3   小伙伴   spider   情况下   解释   监测   网络   class   

原文地址:https://www.cnblogs.com/jiajia101/p/10238216.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!