1.scrapy的安装
-前提,最好用virtualenv 创建的虚拟环境安装
-windows
-官方推荐用anaconda
-自定已安装
-1.
https://www.lfd.uci.edu/~gohlke/pythonlibs/
下载对应的twisted ,注意python的版本和32/64
-2.再pip安装
pip install scrapy
-Ubuntu
-要在Ubuntu(或基于Ubuntu)系统上安装scrapy,您需要安装这些依赖项:
sudo apt-get install python-dev python-pip libxml2-dev libxslt1-dev zlib1g-dev libffi-dev libssl-dev
-如果你想在python3上安装scrapy,你还需要Python3的开发头文件:
sudo apt-get install python3-dev
2.scrapy 框架的使用
-1.新建项目
命令:scrapy startproject <project_name> [project_dir]
注意:cd到想要创建项目的目录下
-2.编写爬虫
-手动编写
-1.继承scrapy.Spider
-2.name属性
-3.start_urls
-4.parse方法
-命令行:scrapy genspider [-t template] <name> <domain>
scrapy genspider tzc
www.shiguangkey.com
-3.启动爬虫
-scrapy crawl <spidername>
-4.追踪连接
return scrapy.Request()