文档原文:http://www.2xkt.com/node/1089
PDF版本
已压缩的HTML
日期:2016年12月24日版本:0.19.2
二进制安装: http://pypi.python.org/pypi/pandas
源代码仓库: http://github.com/pydata/pandas
问题&想法: https://github.com/pydata/pandas/issues
Q&A支持: http://stackoverflow.com/questions/tagged/pandas
开发人员邮件列表: http://groups.google.com/group/pydata
pandas是一个提供快速,灵活和表达性数据结构的Python包,旨在使“关系”或“标记”数据变得简单直观。它旨在成为在Python中进行实用的真实世界数据分析的基本高级构建块。此外,它的更广泛的目标是成为最强大和最灵活的任何语言的开源数据分析/操作工具。它已经很好地朝着这个目标前进了。
pandas非常适合许多不同类型的数据:
具有非均匀类型列的表格数据,如在SQL表或Excel电子表格中
有序和无序(不一定是固定频率)时间序列数据。
带有行和列标签的任意矩阵数据(均匀类型或异质)
任何其他形式的观测/统计数据集。数据实际上不需要被标记就可以被放置到Pandas的数据结构中
pandas的两个主要数据结构Series
(一维)和DataFrame
(二维)处理了金融,统计,社会中的绝大多数典型用例科学,以及许多工程领域。对于R用户,DataFrame
提供R的data.frame
所有功能及其他功能。pandas建立在NumPy之上,旨在包含更多其他第三方库并与之集成为优秀的科学计算环境。
这里只是几个pandas做得很好的事情:
轻松处理浮点数据中的缺失数据(表示为NaN)以及非浮点数据
大小可变性:列可以从DataFrame和更高维度的对象中插入和删除
自动和显式数据对齐:对象可以显式地对齐到一组标签,或者用户可以简单地忽略标签,让Series,DataFrame 等在计算中为您自动对齐数据
功能强大,灵活的分组功能对数据集执行拆分应用组合操作,以聚合和转换数据
使易于将其他Python和NumPy数据结构中的粗糙,不同索引的数据转换为DataFrame对象
基于智能标签的切片,花式索引和子集化大数据集
直观的合并和连接数据集
灵活的重塑和数据集的旋转
轴的分层标签(每个标记可能有多个标签)
用于从平面文件(CSV和定界),Excel文件,数据库加载数据并保存/加载超快速HDF5格式的数据的强大IO工具
时间序列 - 特定功能:日期范围生成和频率转换,移动窗口统计,移动窗口线性回归,日期移动和滞后等。
许多此处原则是为了解决在使用其他语言/科学研究环境时常常所遇到的不足。对于数据科学家,处理数据通常分为多个阶段:清理和清理数据,分析/建模,然后将分析的结果组织成适合于绘图或表格显示的形式。pandas是处理所有这些任务的理想工具。
其他一些注释
pandas是快速的。许多低级算法位已在Cython代码中广泛调整。然而,与任何其他泛化通常牺牲性能。因此,如果您专注于应用程序的一个功能,您可以创建一个更快的专业工具。
pandas是statsmodels的依赖项,使其成为Python中统计计算生态系统的重要组成部分。
pandas已广泛用于金融应用的产品。
注意
本文档假定大家熟悉NumPy。如果你还没有熟练使用NumPy或者根本没用过numpy,请先花一些时间在学习NumPy。
有关库中的内容的更多详细信息,请参阅软件包概述。
-
新功能
-
API更改
-
新功能
-
HDFStore
-
选择选择
-
选择弃用
-
Dtypes
-
Dtype Conversion
-
Dtype Gotchas
-
数据时间转换
-
API更改
-
增强功能
-
API更改
-
I / O增强功能
-
其他增强功能
-
实验功能
-
错误修正
-
API更改
-
先前版本弃用/更改
-
弃用
-
索引API更改
-
Float64Index API Change
-
HDFStore API更改
-
DataFrame repr更改
-
增强功能
-
实验
-
内部重构
-
错误修正
-
输出格式增强
-
API更改
-
先前版本弃用/更改
-
弃用
-
增强功能
-
效果
-
实验
-
错误修正
-
API更改
-
显示更改
-
文本解析API更改
-
Groupby API更改
-
SQL
-
MultiIndexing Using Slicers
-
绘图
-
先前版本弃用/更改
-
弃用
-
已知问题
-
增强功能
-
效果
-
实验
-
错误修正
-
API更改
-
增强功能
-
效果
-
实验
-
错误修正
-
新功能
-
向后不兼容的API更改
-
增强功能
-
效果
-
错误修正
-
Series / DataFrame中的分类
-
TimedeltaIndex / Scalar
-
内存使用
-
.dt存取器
-
时区处理改进
-
滚动/展开时机改进
-
sql io模块的改进
-
突变更改
-
内部重构
-
弃用
-
删除以前的版本弃用/更改
-
API更改
-
增强功能
-
错误修正
-
API更改
-
增强功能
-
效果
-
错误修正
-
新功能
-
向后不兼容的API更改
-
性能改进
-
错误修正
-
DataFrame分配
-
与scipy.sparse的交互
-
字符串方法增强
-
其他增强功能
-
Timedelta的变化
-
索引更改
-
分类更改
-
其他API更改
-
弃用
-
删除以前的版本弃用/更改
-
增强功能
-
API更改
-
索引表示
-
性能改进
-
错误修正
-
CategoricalIndex
-
示例
-
字符串方法增强
-
其他增强功能
-
弃用
-
新功能
-
API更改
-
性能改进
-
错误修正
-
管道
-
其他增强功能
-
新功能
-
向后不兼容的API更改
-
性能改进
-
错误修正
-
Datetime with TZ
-
释放GIL
-
绘制子方法
-
dt
存取器的其他方法 -
周期频率增强
-
支持SAS XPORT文件
-
支持.eval()中的数学函数
-
使用
MultiIndex
更改Excel -
Google BigQuery增强功能
-
使用Unicode东亚宽度显示对齐
-
其他增强功能
-
对排序API的更改
-
更改为to_datetime和to_timedelta
-
更改索引比较
-
更改为布尔比较与无
-
HDFStore dropna behavior
-
更改为
display.precision
选项 -
更改为
Categorical.unique
-
在解析器中将
bool
更改为header
-
其他API更改
-
弃用
-
删除以前的版本弃用/更改
-
新功能
-
增强功能
-
API更改
-
性能改进
-
错误修正
-
条件HTML格式
-
弃用
-
新功能
-
向后不兼容的API更改
-
性能改进
-
错误修正
-
窗口函数现在是方法
-
更改重命名
-
范围索引
-
更改为str.extract
-
添加str.extractall
-
更改为str.cat
-
数据类型舍入
-
FloatIndex中的整数格式
-
更改dtype分配行为
-
to_xarray 0>
-
乳胶表示
-
pd.read_sas()
更改 -
其他增强功能
-
NaT和Timedelta操作
-
更改为msgpack
-
.rank的签名更改
-
QuartBegin中的错误,n = 0
-
重新取样API
-
更改为eval
-
其他API更改
-
弃用
-
删除已弃用的浮动索引器
-
删除以前的版本弃用/更改
-
新功能
-
稀疏变化
-
API更改
-
性能改进
-
错误修正
-
自订工作时间
-
.groupby(..)
语法与窗口和重新抽样操作 -
方法链改进
-
当
MultiIndex
的一部分时,DateTimeIndex
-
汇编数据时
-
其他增强功能
-
.groupby(..).nth()
更改 -
numpy功能兼容性
-
在groupby重新取样上使用
.apply
-
read_csv
异常中的更改 -
to_datetime
错误更改 -
其他API更改
-
弃用
-
新功能
-
API更改
-
弃用
-
删除以前的版本弃用/更改
-
性能改进
-
错误修正
-
merge_asof
用于asof风格的时间序列加入 -
.rolling()
现在是时间系列感知 -
read_csv
已改进对重复列名称的支持 -
read_csv
支持直接解析Categorical
-
分类连接
-
半月偏移
-
新建索引方法
-
Google BigQuery增强功能
-
细粒度数字错误状态
-
get_dummies
现在返回整数dtypes -
将
to_numeric
中的最小可能dtype向下转换 -
pandas开发API
-
其他增强功能
-
Series.tolist()
现在将返回Python类型 -
Series
系列 -
Series
在分配时促销 -
.to_datetime()
更改 -
合并更改
-
.describe()
更改 -
Period
更改 -
索引
+
/-
不再用于设置操作 -
Index.difference
和.symmetric_difference
更改 -
Index.unique
始终返回Index
-
MultiIndex
构造函数,groupby
和set_index
保留分类dtypes -
read_csv
将逐步枚举块 -
稀疏更改
-
索引器dtype更改
-
其他API更改
-
性能改进
-
错误修正
-
增强功能
-
性能改进
-
错误修正
-
v0.19.2(2016年12月24日)
-
v0.19.1(2016年11月3日)
-
v0.19.0(2016年10月2日)
-
v0.18.1(2016年5月3日)
-
v0.18.0(2016年3月13日)
-
v0.17.1(2015年11月21日)
-
v0.17.0(2015年10月9日)
-
v0.16.2(2015年6月12日)
-
v0.16.1(2015年5月11日)
-
v0.16.0(2015年3月22日)
-
v0.15.2(2014年12月12日)
-
v0.15.1(2014年11月9日)
-
v0.15.0(2014年10月18日)
-
v0.14.1(2014年7月11日)
-
v0.14.0(2014年5月31日)
-
v0.13.1(2014年2月3日)
-
v0.13.0(2014年1月3日)
-
v0.12.0(2013年7月24日)
-
v0.11.0(2013年4月22日)
-
v0.10.1(2013年1月22日)
-
v0.10.0(2012年12月17日)
。
。
。
。