用工具爬虎牙星秀VS用代码

时间：2020-06-28 15:35:02 阅读：93 评论：0 收藏：0 [点我收藏+]

标签：运行数据库 logs redis awl auth crawl app mys

先来个工具操作

1、获取链接https://www.huya.com/g/xingxiu

技术图片

2、删除字段、增加字段、开始采集

技术图片

3、启动

技术图片

4、运行中

技术图片

5、采的太多了我就停止了

技术图片

6、导出数据Excel格式

技术图片

7、查看本地文件

技术图片

8、导入到mysql数据库

技术图片

9、mysql配置

技术图片

10、选择导出设置

技术图片

11、查看mysql数据库里面的数据

技术图片

12、OK啦！好开心！！！

用代码开始操作

1、首先咱们创建个爬取的工程项目

scrapy startproject huyaPro

技术图片

2、创建虫子

技术图片

3、settings配置文件里面修改

技术图片

4、先看下数据试试

scrapy crawl huya

技术图片

5、复制ul的xpath

技术图片

6、分别定位标题、作者、热度

技术图片

import scrapy
class HuyaSpider(scrapy.Spider):
    name = ‘huya‘
    start_urls = [‘https://www.huya.com/g/xingxiu‘]
    def parse(self, response):
        # 复制ul的xpath并获取下面所有的li数据：
        li_list = response.xpath(‘//*[@id="js-live-list"]/li‘)
        # 定义空列表：
        all_data = []
        for li in li_list:
            # 获取标题：
            title = li.xpath(‘./a[2]/text()‘).extract_first()
            # 获取作者：
            author = li.xpath(‘./span/span[1]/i/text()‘).extract_first()
            # 获取热度：
            hot = li.xpath(‘./span/span[2]/i[2]/text()‘).extract_first()
            # 定义字典形式：
            dic = {
                "title": title,
                "author": author,
                "hot": hot
            }
            # 列表里面增加字典的数据：
            all_data.append(dic)
        return all_data
7、存储到本地文件.csv格式