码迷,mamicode.com
首页 > 编程语言 > 详细

python之pandas核心函数

时间:2018-10-16 15:54:28      阅读:154      评论:0      收藏:0      [点我收藏+]

标签:var   app   size   unique   操作   das   索引   读取excel   ret   

Pandas的23种核心函数:
import pandas as pd

 

基础数据集操作
(1)读取CSV文件
pd.DataFrame.from_csv("csv_file")
或者
pd.read_csv("csv_file")

(2)读取Excel文件
pd.read_excel("excel_file")

(3)将DataFrame写入CSV
df.to_csv("data_csv", sep=",", index=False) #采用逗号分隔,且不带索引

(4)基本的数据集特征信息
df.info()

(5)数据集统计
print (df.describe())

(6)将DataFrame输出到一张表里
print (tabulate(print_table, headers=headers))
#其中print_table为二维列表,headers为表头字符串组成的列表

(7)列出所有列名
df.columns

 

基础数据处理
(8)删除缺失数据
df.dropna(axis=0, how=‘any‘)
#any表示删除包含任何NaN值的给定轴,how=all会删除所有元素都是NaN的给定轴

(9)替换缺失数据
df.replace(to_replace=None, value=None) #用value替换to_replace

(10)检查空值NaN
pd.isnull(object) #数值组中的NaN和目标数组中的None/NaN

(11)删除特征
df.drop(‘feature_variable_name‘, axis=1) #axis选0表示行,选1表示列

(12)将目标类型转换为浮点型
pd.to_numeric(df["feature_name"], errors="coerce")

(13)将DataFrame转换为NumPy数组
df.as_matrix()

(14)取DataFrame的前面n行
df.head(n)

(15)通过特征名取数据
df.loc[feature_name]

DataFrame操作
(16)对DataFrame使用函数
df["height"].apply(*lambda* height: 2*height) #将height行的所有值乘上2

def multiply(x):
return x*2
df["height"].apply(multiply)

(17)重命名行
df.rename(columns={df.columns[2]:‘size‘}, inplace=True)

(18)取某一行的唯一实体
df["name"].unique()

(19)访问子DataFrame
new_df = df[["name","size"]]

(20)总结数据信息
df.sum()
df.min()
df.max()
df.idxmin()
df.idxmax()
df.describe()
df.mean()
df.median()
df.corr()
df["size"].median()

(21)给数据排序
df.sort_values(ascending=False)

(22)布尔型索引
df[df["size"] == 5] #过滤名为size的行,并仅显示值为5的行

(23)选定特定的值
df.loc([0],[‘size‘]) #选定size列/第一行

python之pandas核心函数

标签:var   app   size   unique   操作   das   索引   读取excel   ret   

原文地址:https://www.cnblogs.com/xyqiu90-365/p/9797905.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!