码迷,mamicode.com
首页 > 其他好文 > 详细

Scrapy 创建项目 (未完)

时间:2018-01-12 13:32:46      阅读:321      评论:0      收藏:0      [点我收藏+]

标签:gen   logs   技术分享   定义   cdc   去重   虚拟   com   jin   

1. 安装python3

2. python虚拟环境搭建

https://www.jianshu.com/p/ad2d8ee4a679

3.Python3.6 下 Scrapy 安装

http://blog.csdn.net/yctjin/article/details/70658811

4.Scrapy创建项目

workon py3env

cd g:/pyproject

scrapy startproject jd
在PyCharm中打开项目

技术分享图片

5.Scrapy项目结构说明

scrapy.cfg
项目的配置文件,带有这个文件的那个目录作为scrapy项目的根目录
items.py
定义你所要抓取的字段
pipelines.py
管道文件,当spider抓取到内容(item)以后,会被送到这里,这些信息(item)在这里会被清洗,去重,保存到文件或者数据库。
middlewares.py
中间件,主要是对功能的拓展,你可以添加一些自定义的功能,比如添加随机user-agent, 添加proxy。
settings.py
设置文件,用来设置爬虫的默认信息,相关功能开启与否,比如是否遵循robots协议,设置默认的headers,设置文件的路径,中间件的执行顺序等等。
spiders/
在这个文件夹下面,编写你自定义的spider。

6.编写爬虫

在项目中的spiders文件夹下面创建一个文件,命名为baidu.py我们将在这个文件里面编写我们的爬虫。

Scrapy 创建项目 (未完)

标签:gen   logs   技术分享   定义   cdc   去重   虚拟   com   jin   

原文地址:https://www.cnblogs.com/snakejia/p/8274940.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!