另类Python爬虫，利用pandas库的read_html()方法爬取网页表格型数据

时间：2020-09-16 12:06:14 阅读：34 评论：0 收藏：0 [点我收藏+]

标签：mod type exce div excel 空气质量 bsp 大致 pca

文章目录

一、简介

很多人学习python，不知道从何学起。
很多人学习python，掌握了基本语法过后，不知道在哪里寻找案例上手。
很多已经做案例的人，却不知道如何去学习更加高深的知识。
那么针对这三类人，我给大家提供一个好的学习平台，免费领取视频教程，电子书籍，以及课程的源代码！
QQ群：101677771

一般的爬虫套路无非是发送请求、获取响应、解析网页、提取数据、保存数据等步骤。构造请求主要用到requests库，定位提取数据用的比较多的有xpath和正则匹配。一个完整的爬虫，代码量少则几十行，多则百来行，对于新手来说学习成本还是比较高的。

谈及pandas的read.xxx系列的函数，常用的读取数据方法为：pd.read_csv() 和 pd.read_excel()，而 pd.read_html() 这个方法虽然少用，但它的功能非常强大，特别是用于抓取Table表格型数据时，简直是个神器。无需掌握正则表达式或者xpath等工具，短短的几行代码就可以将网页数据快速抓取下来并保存到本地。

二、原理

pandas适合抓取Table表格型数据，先了解一下具有Table表格型数据结构的网页，举例如下：

技术图片 ?

用Chrome浏览器查看网页HTML结构，会发现Table表格型数据有一些共同点，大致的网页结构如下表示。

<table class="..." id="..." ...>
	 ...
     <tbody>
        <tr>
            <td>...</td>
        </tr>
        <tr>...</tr>
        <tr>...</tr>
        <tr>...</tr>
        <tr>...</tr>
        ...
        <tr>...</tr>
        <tr>...</tr>        
    </tbody>
</table>

网页具有以上结构，我们可以尝试用pandas的 pd.read_html() 方法来直接获取数据。

技术图片 ?

pd.read_html() 的一些主要参数

io：接收网址、文件、字符串
header：指定列名所在的行
encoding：The encoding used to decode the web page
attrs：传递一个字典，用其中的属性筛选出特定的表格
parse_dates：解析日期

三、爬取实战

实例1

爬取2019年成都空气质量数据(12页数据)，目标URL：http://www.tianqihoubao.com/aqi/chengdu-201901.html

import pandas as pd

dates = pd.date_range(‘20190101‘, ‘20191201‘, freq=‘MS‘).strftime(‘%Y%m‘)   # 构造出日期序列  便于之后构造url
for i in range(len(dates)):
    df = pd.read_html(f‘http://www.tianqihoubao.com/aqi/chengdu-{dates[i]}.html‘, encoding=‘gbk‘, header=0)[0]
    if i == 0:
        df.to_csv(‘2019年成都空气质量数据.csv‘, mode=‘a+‘, index=False)     # 追加写入
        i += 1
    else:
        df.to_csv(‘2019年成都空气质量数据.csv‘, mode=‘a+‘, index=False, header=False)

9行代码搞定，爬取速度也很快。

查看保存下来的数据

技术图片 ?

实例2

抓取新浪财经基金重仓股数据(25页数据)，URL：http://vip.stock.finance.sina.com.cn/q/go.php/vComStockHold/kind/jjzc/index.phtml?p=25

import pandas as pd

df = pd.DataFrame()
for i in range(1, 26):
    url = f‘http://vip.stock.finance.sina.com.cn/q/go.php/vComStockHold/kind/jjzc/index.phtml?p={i}‘
    df = pd.concat([df, pd.read_html(url)[0].iloc[::,:-1]])    # 合并DataFrame  不要明细那一列
df.to_csv(‘新浪财经基金重仓股数据.csv‘, encoding=‘utf-8‘, index=False)

6行代码搞定，爬取速度也很快。

查看保存下来的数据：

技术图片 ?

之后在爬取一些小型数据时，只要遇到这种Table表格型数据，就可以先试试 pd.read_html() 大法。

另类Python爬虫，利用pandas库的read_html()方法爬取网页表格型数据

标签：mod type exce div excel 空气质量 bsp 大致 pca

原文地址：https://www.cnblogs.com/snsar/p/13601905.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行