码迷,mamicode.com
首页 > 其他好文 > 详细

另类爬取表格数据

时间:2019-01-29 22:05:35      阅读:182      评论:0      收藏:0      [点我收藏+]

标签:coding   标签   val   values   eve   ram   调用   style   table   

 

 

import pandas as pd
df = pd.read_html("http://www.air-level.com/air/beijing/", encoding=utf-8,header=0)[0]
results = df.T.to_dict().values()

print(results)

代码很简单但是实现的内容可不简单,第一行导入pandas包,
第二行的read_html核心功能实现是调用requests然后解析table标签里的每个td的数据
最后生成一个list对象里面是dataframe对象。所以通过小标0获取它的第一个dataframe数据,既然是dateframe我们就可以使用dataframe的方法了,
第三行首先做了个转秩操作,然后转为映射类型打印出来了。上面的代码为了演示其效果,下面我们对结果做一个存储操作

df = pd.read_html("http://www.air-level.com/air/beijing/", encoding=utf-8,header=0)[0]
df.to_csv("tq.csv",index=False)

成功的获取了网页表格的数据。

需要注意的是read_html只能解析静态页面。

另类爬取表格数据

标签:coding   标签   val   values   eve   ram   调用   style   table   

原文地址:https://www.cnblogs.com/xingnie/p/10335846.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!