码迷,mamicode.com
首页 > 其他好文 > 详细

[爬虫框架scrapy]爬虫文件的创建

时间:2020-05-24 16:42:45      阅读:66      评论:0      收藏:0      [点我收藏+]

标签:线程   pycha   好用   line   art   items   速度   img   nes   

新建爬虫项目非常有必要,虽然可以自己手动创建但还是最好用官方推荐的方法来新建爬虫

  1. 终端输入scrapy -h查看scrapy 命令的用法
  2. 技术图片
  3. 输入scrapy startproject Youspider 新建一个爬虫
  4. 技术图片
  5. 可以看到下一步该干嘛scrapy 都帮你提示好了
  6. 终端输入cd Youspider
  7. 在这目录下创建爬虫文件,注意爬虫名不可与爬虫项目同名且该名字是唯一的
  8. 终端输入scrapy genspider youspider www.baidu.com
  9. 创建成功,youspider为爬虫名字,www.baidu.com为要爬取网站的域名

技术图片

用pycharm可以看到爬虫文件如上

  1. youspider为爬虫文件,我们大部分时间都会编辑这个文件
  2. items为定义结构化数据,我们定义要爬取的字段
  3. middlewares为中间件,我们一般会在这里修改请求头,代理ip,cookie等
  4. pipelines为管道文件,爬虫会返回要爬取的数据,交给管道处理要爬取的数据
  5. setting为配置文件,控制爬虫线程数,爬取速度,定义全局请求头,开启中间件,开启管道,开启扩展等
  6. scrapy.cfg这个在部署爬虫时会用到

[爬虫框架scrapy]爬虫文件的创建

标签:线程   pycha   好用   line   art   items   速度   img   nes   

原文地址:https://www.cnblogs.com/liangritian/p/12951174.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!