码迷,mamicode.com
首页 > 其他好文 > 详细

pandas 学习 第11篇:DataFrame-数据处理(分组、聚合、窗口、相关、统计)

时间:2019-10-08 14:12:12      阅读:848      评论:0      收藏:0      [点我收藏+]

标签:信息   elf   count   das   映射   实现   dex   self   观察   

数据处理的目的是为了数据分析,下面分享常用的数据分析中会用到的函数。

一,分组和聚合

 groupby用于对数据分组,分组之后可以直接调用聚合函数求值;agg()函数把分组和调用聚合函数集成到一个函数来实现:

DataFrame.groupby(self, by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=False, observed=False, **kwargs)
DataFrame.agg(self, func, axis=0, *args, **kwargs)

二,窗口

rolling()是指按照窗口滚动求值,expanding()是指依次递增1,计算累加;ewm指的是指数加权滚动平均:

DataFrame.rolling(self, window, min_periods=None, center=False, win_type=None, on=None, axis=0, closed=None)
DataFrame.expanding(self, min_periods=1, center=False, axis=0)
DataFrame.ewm(self, com=None, span=None, halflife=None, alpha=None, min_periods=0, adjust=True, ignore_na=False, axis=0)

详细信息,可以参考:pandas 学习 第4篇:序列的处理(应用、聚合、转换、映射、分组、滚动、扩展、指数加权移动平均)

三,相关

计算两对列值之间的相关性:

DataFrame.corr(self, method=pearson, min_periods=1)

method:计算相关性的方法,有效值是 ‘pearson’, ‘kendall’, ‘spearman’ 或 callable

min_periods:每对列必须具有有效结果的最小观察数量,目前只适用于:Pearson 和 Spearman相关性。

四,统计函数

常用的统计函数:

  • min、max:最小值、最大值
  • mode:众数
  • var:方差
  • std:标准差
  • sum:累加和
  • mean:均值
  • mad:绝对值的均值
  • median:中位数
  • quantile:百分位数
  • count:计数
  • cumsum:累加求和
  • cumprod:累积乘积
  • cummin、cummax:累积最小值、累积最大值

 

参考文档:

pandas DataFrame

pandas 学习 第11篇:DataFrame-数据处理(分组、聚合、窗口、相关、统计)

标签:信息   elf   count   das   映射   实现   dex   self   观察   

原文地址:https://www.cnblogs.com/ljhdo/p/11599177.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!