标签:mod type exce div excel 空气质量 bsp 大致 pca
很多人学习python,不知道从何学起。
很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手。
很多已经做案例的人,却不知道如何去学习更加高深的知识。
那么针对这三类人,我给大家提供一个好的学习平台,免费领取视频教程,电子书籍,以及课程的源代码!
QQ群:101677771
一般的爬虫套路无非是发送请求、获取响应、解析网页、提取数据、保存数据等步骤。构造请求主要用到requests库,定位提取数据用的比较多的有xpath和正则匹配。一个完整的爬虫,代码量少则几十行,多则百来行,对于新手来说学习成本还是比较高的。
谈及pandas的read.xxx系列的函数,常用的读取数据方法为:pd.read_csv() 和 pd.read_excel(),而 pd.read_html() 这个方法虽然少用,但它的功能非常强大,特别是用于抓取Table表格型数据时,简直是个神器。无需掌握正则表达式或者xpath等工具,短短的几行代码就可以将网页数据快速抓取下来并保存到本地。
pandas适合抓取Table表格型数据,先了解一下具有Table表格型数据结构的网页,举例如下:
用Chrome浏览器查看网页HTML结构,会发现Table表格型数据有一些共同点,大致的网页结构如下表示。
网页具有以上结构,我们可以尝试用pandas的 pd.read_html() 方法来直接获取数据。
pd.read_html() 的一些主要参数
爬取2019年成都空气质量数据(12页数据),目标URL:http://www.tianqihoubao.com/aqi/chengdu-201901.html
9行代码搞定,爬取速度也很快。
查看保存下来的数据
抓取新浪财经基金重仓股数据(25页数据),URL:http://vip.stock.finance.sina.com.cn/q/go.php/vComStockHold/kind/jjzc/index.phtml?p=25
6行代码搞定,爬取速度也很快。
查看保存下来的数据:
之后在爬取一些小型数据时,只要遇到这种Table表格型数据,就可以先试试 pd.read_html() 大法。
另类Python爬虫,利用pandas库的read_html()方法爬取网页表格型数据
标签:mod type exce div excel 空气质量 bsp 大致 pca
原文地址:https://www.cnblogs.com/snsar/p/13601905.html