码迷,mamicode.com
首页 > 编程语言 > 详细

利用Python进行数据分析 第5章 pandas入门(2)

时间:2019-10-07 21:24:56      阅读:141      评论:0      收藏:0      [点我收藏+]

标签:行数据   修改   列表   关键字   部分   入门   das   width   不同   

5.2 基本功能

(1)重新索引 - 方法reindex

方法reindex是pandas对象地一个重要方法,其作用是:创建一个新对象,它地数据符合新地索引。

 如,对下面的Series数据按新索引进行重排:

技术图片

 

根据新索引重排后的结果如下,当某个索引值不存在,就会在原来的基础上引入缺失值NaN:

技术图片

 

利用reindex的method选项,实现插值处理。尤其对于时间序列这样的有序数据,会经常用到该选项。

如,使用 ffill 实现 前向值 填充:

技术图片

 

技术图片

 

利用DataFrame,reindex修改(行)索引和列。(只传递一个序列时,会重新索引结果的行):

技术图片

 

利用columns关键字,对列进行重新索引:

技术图片

 

reindex 函数的参数:

技术图片

 

 

(2)丢弃指定轴上的项 - 方法 .drop

丢弃某条轴上的一个或多个项,只要由一个索引数组或列表即可。

drop方法,返回的时一个在指定轴上删除了指定值的对象:

对于Series:

技术图片

 

对于DataFrame(可删除任意轴上的索引值):

先创建如下DataFrame例子:

技术图片

 

用标签序列调用drop,会从行标签(axis 0)删除值:

技术图片

 

通过传递axis=1或axis=‘columns‘可删除列的值:

技术图片

 

Ps:如果想就地修改对象,可使用inplace参数(谨慎使用inplace,该参数会彻底删除被删除的数据!)

  技术图片

 

  

(3)索引、选取和过滤

Series索引,其索引值可以是整数(单个、多个,或整数切片),也可以是具体的单个、多个index值,也可以是布尔类型条件。

1)创建Series示例:

技术图片

 

具体的例子如下:

技术图片

 

Ps:利用标签的切片运算与普通的Python切片运算不同,其末端是包含的!

  技术图片

 

用切片可对Series的相应部分进行设置:

技术图片

2)DataFrame示例

 

 

(4)用loc和iloc进行选取

 

(5)整数索引

 

(6)算术运算和数据对齐

 

(7)在算术方法中填充值

 

(8)DataFrame和Series之间的运算

 

(9)函数应用和映射

 

(10)排序和排名

 

(11)带有重复标签的轴索引

 

5.3 汇总和计算描述统计

 

(1)相关系数和协方差

(2)唯一值、值计数以及成员资格

 

下期预告:讨论用pandas读取(或加载)和写入数据集的工具。

之后,更深入地研究使用pandas进行数据清洗、规整、分析和可视化工具

 

利用Python进行数据分析 第5章 pandas入门(2)

标签:行数据   修改   列表   关键字   部分   入门   das   width   不同   

原文地址:https://www.cnblogs.com/ElonJiang/p/11632136.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!