码迷,mamicode.com
首页 > 其他好文 > 详细

scrapy 启动

时间:2018-08-06 20:12:47      阅读:164      评论:0      收藏:0      [点我收藏+]

标签:blog   rap   robot   分享图片   目录   环境   文件   sel   lin   

虚拟环境安装好了之后,scrapy 框架安装好了以后:

workon article_spider   (项目名称)

scrapy startproject  Article Spider 工程目录

cd 到 工程目录

Scrapy genspider jobbole blog.jobbole.com 第一个文件名称 要爬取网站的域名

 

技术分享图片

技术分享图片

启动一个工程的cmd: scrapy crawl jobbole 

如果 运行报 No module named “win32api”

要安装 pip install pypiwin32 这个包

settings

把 技术分享图片

这样设置,否则 遵循 robots.txt rules ,它将会不爬

 

如果 是 xpath selector 对象 想提取里面的内容,调用extract()成一个列表,然后索引取出,但是列表没有值,索引取出就会报错,所以

extract_first 提取不到就返回None。比较好

 

scrapy 启动

标签:blog   rap   robot   分享图片   目录   环境   文件   sel   lin   

原文地址:https://www.cnblogs.com/wuheng-123/p/9432231.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!