码迷,mamicode.com
首页 > 其他好文 > 详细

数据统计与数据异常分析

时间:2021-03-15 10:31:58      阅读:0      评论:0      收藏:0      [点我收藏+]

标签:save   null   参数   lazy   rgba   false   efi   describe   dmi   

1.输出数据集的基本信息,比如最大值,最小值,平均值等

读取表csv数据:

import numpy as np
import pandas as pd
dataset=pd.read_csv("catering_sale.csv")
dataset

out:

技术图片

 

 

 数据集的平均值,最大值,最小值:

data=dataset.mean()
data

data_max=dataset.max()
data_max

data_min=dataset.min()
data_min

out:

技术图片

 

 

 技术图片

 

 

 技术图片

 

 

 查看表中是否有缺省值:

np.all(pd.notnull(dataset))

out:

技术图片

 

 

 查看哪一列存在缺省值:

pd.isnull(dataset).any()

out:

技术图片

 

 

 查看缺省值的位置:

pd.notnull(dataset)

out:

技术图片

 

 

2. 统计缺失的变量和样本个数:

dataset.info()
missing_value=dataset[销量].shape[0]-dataset[销量].count()
missing_value

out:

技术图片

 

 

 3.通过箱式图判断异常点:

%matplotlib notebook
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
# import seaborn as 

plt.rcParams[font.sans-serif] = [uSimHei]
plt.rcParams[axes.unicode_minus] = False

fig,axes = plt.subplots()
dataset.boxplot(column=销量,by=[日期,销量],ax=axes)
# column参数表示要绘制成箱形图的数据,可以是一列或多列
# by参数表示分组依据
 
axes.set_ylabel(values of tip_pct)
fig.savefig(p3.png)   # 将绘制的图形保存为p3.png

out(散点):

技术图片

 

 

 out(箱式):

技术图片

 

 

 以上为jupyter编码,以下为sublime编码:

import pandas as pd
import numpy as nm
import matplotlib.pyplot as plt


data = pd.read_csv(r"C:\Users\Administrator\Desktop\catering_sale.csv",usecols=[0,1])

# num = pd.Series(data,index=[i in range(size(data))])
print(data.describe())
print(data.isnull())

plt.rcParams[font.sans-serif] = [uSimHei]
plt.rcParams[axes.unicode_minus] = False

fig,axes = plt.subplots()
data.boxplot(column=销量,ax=axes)
# column参数表示要绘制成箱形图的数据,可以是一列或多列
# by参数表示分组依据
 
axes.set_ylabel(values of data)
fig.savefig(rC:\Users\Administrator\Desktop\p3.png)

out:

技术图片

技术图片

 

 技术图片

 

数据统计与数据异常分析

标签:save   null   参数   lazy   rgba   false   efi   describe   dmi   

原文地址:https://www.cnblogs.com/h-y-w/p/14524328.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!