scrapy - grab english name

时间：2017-02-14 19:00:22 阅读：201 评论：0 收藏：0 [点我收藏+]

标签：mozilla result load proc ide x64 current elf lis

wxpath定位-采集验证-入库-使用。

from scrapy.spider import Spider
from scrapy.crawler import CrawlerProcess


class EnglishName(Spider):
    name = ‘EnglishName‘
    start_urls = [‘http://babynames.net/all/starts-with/%(first)s?page=%(page)i‘ % {‘first‘: first,
                                                                                    ‘page‘: page,} for first in ‘abcdefghijklmnopqrstuvwxyz‘
                                                                                                 for page in range(1, 30, 1)]

    def parse(self, response):

        for wname in response.xpath(".//ul[@class=‘names-results listing-view‘]/li"):
            grab_url = response.url
            print grab_url
            wboy = wname.xpath("a/span[@class=‘result-gender boy‘]")
            wgirl = wname.xpath("a/span[@class=‘result-gender girl‘]")
            wres = wname.xpath("a/span[@class=‘result-name‘]/text()").extract()
            isboy = 1
            if wboy == []:
                isboy = 0
            for w in wres:
                wres=w
                print isboy
                print wres


if __name__ == ‘__main__‘:
    process = CrawlerProcess({‘DOWNLOAD_DELAY‘:2,
                              ‘CONCURRENT_REQUESTS_PER_DOMAIN‘: 6,
                              ‘USER_AGENT‘:‘Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2950.5 Safari/537.36‘
                              })
    process.crawl(EnglishName)
    process.start()

标签：mozilla result load proc ide x64 current elf lis

原文地址：http://www.cnblogs.com/yuanjiangw/p/6398707.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行