码迷,mamicode.com
首页 > 编程语言 > 详细

利用Python进行数据分析-Pandas(第六部分-数据聚合与分组运算)

时间:2019-12-11 09:38:26      阅读:97      评论:0      收藏:0      [点我收藏+]

标签:统计   线性   分析   nump   adl   聚合   表达   bsp   数据库   

  对数据集进行分组并对各组应用一个函数(无论是聚合还是转换),通常是数据分析工作中的重要环节。在将数据集加载、融合、准备好之后,通常是计算分组统计或生成透视表。pandas提供了一个灵活高效的groupby功能,它使你能以一种自然的方式对数据集进行切片、切块、摘要等操作。

  关系型数据库和SQL能够如此流行的原因之一就是能够方便地对数据进行连接、过滤、转换和聚合。但是,像SQL这样的查询语言所能执行的分组运算的种类很有限。在本部分你将会看到,由Python和pandas强大的表达能力,我们可以执行复杂得多的分组运算(利用任何可以接受pandas对象或NumPy数组的函数)。在本部分,你将会学到:

  • 计算分组摘要统计,如计数、平均值、标准差,或用户自定义函数。
  • 计算分组的概述统计,比如数量、平均值或标准差,或是用户自定义的函数。
  • 应用组内转换或其他运算,如规格化、线性回归、排名或选取子集等。
  • 计算透视表或交叉表。
  • 执行分位数分宜以及其它统计分组分析。

1、GroupBy机制

  Hadlley Wickham(许多热门R语言包的作者)

 

 

利用Python进行数据分析-Pandas(第六部分-数据聚合与分组运算)

标签:统计   线性   分析   nump   adl   聚合   表达   bsp   数据库   

原文地址:https://www.cnblogs.com/lsyb-python/p/12020483.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!