码迷,mamicode.com
首页 > 其他好文 > 详细

scrapy 爬取糗事百科

时间:2016-04-06 23:19:50      阅读:449      评论:0      收藏:0      [点我收藏+]

标签:

  • 安装scrapy

conda install scrapy

  • 创建scrapy项目

scrapy startproject qiubai

技术分享

  • 启动pycharm,发现新增加了qiubai这个目录

技术分享

  • 在spider目录下创建indexpage.py文件

技术分享

技术分享

  • 编写糗百爬虫,获取首页的所有作者信息
#导入scrapy
import scrapy

#创建糗百爬虫类
class QiuBaiSpider(scrapy.Spider):
    #定义爬虫的名字
    name = qiubai
    #定义爬虫开始的URL
    start_urls=[http://www.qiushibaike.com/,]

    #处理爬取的信息
    def parse(self, response):
        li=response.xpath(//div[@class="author clearfix"]/a[2]/h2/text()).extract()
        #li=response.xpath("//h2/text()").extract()
        for item in li:
            print item
  • 在和scrapy.cfg同级的目录下创建manage.py

技术分享

技术分享

输入代码

from scrapy.cmdline import execute

execute()
  • 配置运行参数

技术分享

技术分享

USER_AGENT = ‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.110 Safari/537.36‘
  • 运行爬虫
技术分享

scrapy 爬取糗事百科

标签:

原文地址:http://www.cnblogs.com/yanhongjun/p/5361391.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!