码迷,mamicode.com
首页 > 编程语言 > 详细

数据分析随笔(python及pandas及matplotlib查看数据)

时间:2018-03-10 01:29:57      阅读:232      评论:0      收藏:0      [点我收藏+]

标签:alt   标签   指令   技术分享   atp   绘制   value   查看   类别   

笔记:

import pandas as pd

对于csv数据文件,利用pd.read_csv()打开,如train_data=pd.read_csv(‘‘)

利用train_data.head()可以查看部分data

技术分享图片

 

train_describe()可以得到统计数目,得到平均数、方差等特征(当然是针对数字类型的数据)

技术分享图片

 

对于非数字类型的数据(字符型 数据),可以使用train_data[‘这里填带统计的标签‘].value_counts()统计分类数目

如下显示的结果对应的是:某一个标签为property_area,标签下有semiurban urban rural等三个类别,统计对应数目

 技术分享图片

 

import matplot.pyplot as plt

train_data[‘标签‘].hist(bins=50)

plt.show()

可以显示该标签下的数据分布,50表示y轴的间隔,以直方图显示,横轴表示数值范围,y轴表示数量

 技术分享图片

 

train_data.boxplot(column=‘标签‘)

plt.show()

可以显示该标签下的数值分布,观察分布是否均衡

比如下图表示,数据分布并不均匀,有极值出现

 技术分享图片

 

df.boxplot(column=‘标签1‘, by = ‘标签2‘)

plt.show()

可以将标签1下的数据再按照标签2进行数值分布绘制

如以下表示,已经按照受教育程度分类,受教育水平高的工资极值高,还能得到其他结论

 技术分享图片

注:在想要画图时,单独输入画图指令还不能显示图形,这时需要在另一行上输入plt.show()才可以,条件:import matplotlib.pyplot as plt

 

数据分析随笔(python及pandas及matplotlib查看数据)

标签:alt   标签   指令   技术分享   atp   绘制   value   查看   类别   

原文地址:https://www.cnblogs.com/rayshaw/p/8536973.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!