标签:save null 参数 lazy rgba false efi describe dmi
1.输出数据集的基本信息,比如最大值,最小值,平均值等
读取表csv数据:
import numpy as np import pandas as pd dataset=pd.read_csv("catering_sale.csv") dataset
out:
数据集的平均值,最大值,最小值:
data=dataset.mean() data data_max=dataset.max() data_max data_min=dataset.min() data_min
out:
查看表中是否有缺省值:
np.all(pd.notnull(dataset))
out:
查看哪一列存在缺省值:
pd.isnull(dataset).any()
out:
查看缺省值的位置:
pd.notnull(dataset)
out:
2. 统计缺失的变量和样本个数:
dataset.info() missing_value=dataset[‘销量‘].shape[0]-dataset[‘销量‘].count() missing_value
out:
3.通过箱式图判断异常点:
%matplotlib notebook import matplotlib.pyplot as plt import pandas as pd import numpy as np # import seaborn as plt.rcParams[‘font.sans-serif‘] = [u‘SimHei‘] plt.rcParams[‘axes.unicode_minus‘] = False fig,axes = plt.subplots() dataset.boxplot(column=‘销量‘,by=[‘日期‘,‘销量‘],ax=axes) # column参数表示要绘制成箱形图的数据,可以是一列或多列 # by参数表示分组依据 axes.set_ylabel(‘values of tip_pct‘) fig.savefig(‘p3.png‘) # 将绘制的图形保存为p3.png
out(散点):
out(箱式):
以上为jupyter编码,以下为sublime编码:
import pandas as pd import numpy as nm import matplotlib.pyplot as plt data = pd.read_csv(r"C:\Users\Administrator\Desktop\catering_sale.csv",usecols=[0,1]) # num = pd.Series(data,index=[i in range(size(data))]) print(data.describe()) print(data.isnull()) plt.rcParams[‘font.sans-serif‘] = [u‘SimHei‘] plt.rcParams[‘axes.unicode_minus‘] = False fig,axes = plt.subplots() data.boxplot(column=‘销量‘,ax=axes) # column参数表示要绘制成箱形图的数据,可以是一列或多列 # by参数表示分组依据 axes.set_ylabel(‘values of data‘) fig.savefig(r‘C:\Users\Administrator\Desktop\p3.png‘)
out:
标签:save null 参数 lazy rgba false efi describe dmi
原文地址:https://www.cnblogs.com/h-y-w/p/14524328.html