码迷,mamicode.com
首页 > 其他好文 > 详细

输出数据集信息,统计缺失变量样本,箱式图判断异常点

时间:2021-03-15 10:32:39      阅读:0      评论:0      收藏:0      [点我收藏+]

标签:false   port   http   sum   输出   else   代码   and   for   

输出数据集信息,统计缺失变量样本,箱式图判断异常点

一:任务内容:

1.输出数据集的基本信息

2.统计缺失的变量和样本个数

3.通过箱式图判断异常点

二.实现过程及代码

1.输出数据集的基本信息

读取csv:

import pandas as pd
data=pd.read_csv(rC:\Users\许元宵\Desktop\catering_sale.csv)
data

技术图片

 

 

最大值:

max=data[销量].max()
data.loc[data[销量]==max]

技术图片

 

 

最小值:

min=data[销量].min()
data.loc[data[销量]==min]

技术图片

 

 

平均值:

data[销量].mean()

技术图片

 

 

2.统计缺失的变量和样本个数

data.isnull().sum()
#data[‘销量‘].isnull().sum()
#data[‘日期‘].isnull().sum()

技术图片

 

 样本个数:

data.shape[0]

技术图片

 

 

3.通过箱式图判断异常点

plt.rcParams[font.sans-serif] = [SimHei]#指定字体为黑体
plt.rcParams[axes.unicode_minus] = False#显示负号
plt.figure()
p = data.boxplot(return_type=dict)#画箱式图
x = p[fliers][0].get_xdata()#fliers为异常值标签,get_xdata()与get_ydata()用来获取横纵坐标数组
y = p[fliers][0].get_ydata()
y.sort()
#使用annotate添加注释,xy表示标注点坐标, xytext表示注释坐标
for i in range(len(x)):
    if i > 0:
        plt.annotate(y[i], xy=(x[i], y[i]), xytext=(x[i]+0.05 - 0.8/(y[i]-y[i-1]), y[i]))
    else:
        plt.annotate(y[i], xy=(x[i], y[i]), xytext=(x[i]+0.08, y[i]))
 
plt.show()

技术图片

 

输出数据集信息,统计缺失变量样本,箱式图判断异常点

标签:false   port   http   sum   输出   else   代码   and   for   

原文地址:https://www.cnblogs.com/xyx520/p/14524319.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!