标签:
1.安装 lxml (使用xpath)
2.安装 zope.interface
3.安装 twisted
出错先安装 sudo apt-get install build-essential python-dev
4.安装 pyOpenSSL
5.安装 pywin32
6.安装Scrapy
windows需要安装vs linux需要安装g++
一 生成tutorial项目执行
scrapy startproject tutorial
二 用pycharm打开项目在spiders文件夹下创建一个dmoz_spider.py
__author__ = ‘weilunhui‘ # import scrapy from scrapy.contrib.spiders import CrawlSpider class DmozSpider(CrawlSpider): name = "douban" start_urls = [ "http://movie.douban.com/top250" ] def parse(self, response): print(response.body)
三 在tutorial 下(含有scrapy.cfg文件的地方)执行
scrapy crawl douban ("douban"是和上面的dmoz_spider.py里的name保持一致)
运行结果会显示抓取下来的网页的内容
标签:
原文地址:http://www.cnblogs.com/weilunhui/p/4571875.html