标签:clu input 操作 数据 com common chunk 文件读取 填充
数据初步探索
三种展示数据的方式
1 import pandas as pd 2 import numpy as np 3 4 df = pd.read_csv("anime.csv") 5 6 # head(n) 可以显示前 n 个样本,n默认为5 7 df.head() 8 df.head(2) 9 10 # tail(n) 显示末尾 n 个样本 11 df.tail(2) 12 13 # sample(n) 从数据中随机采样得到 n 个样本 14 df.sample(2)
Pandas提供了读取不同格式文件的接口
1 # 在读取文件的时候,有许多必要的参数需要指定,以便得到的数据可以直接用于后续的数据分析 2 # 分块读取 3 chunker = pd.read_csv("anime.csv", chunksize=4) 4 for piece in chunker: 5 pass 6 # 使用piece做后续处理 7 8 # get_chunk()方法可以读取任意大小的块 9 df = pd.read_csv(‘anime.csv‘, iterator=True) 10 df.get_chunk(4)
1 # 读取 amine.csv 前三行,存入 anime_3.csv 2 df = pd.read_csv(‘anime.csv‘, nrows=3) 3 df.to_csv(‘anime_3.csv‘) 4 import sys 5 df.to_csv(sys.stdout) 6 7 # 指定 grade 为索引列的情况 8 df = pd.read_csv(‘anime.csv‘, nrows=3) 9 df.to_csv(sys.stdout, index=False) # 防止读取文件时多出包含位置信息的一列
1 pd.Series([1, 2, ‘f‘]) 2 df.dtypes
- select_dtypes() 方法可以筛选出特定数据类型的特征
- 两个参数
- include 筛选时选取的数据类型
- exclude 筛选时剔除的数据类型
1 df.select_dtypes(include=object, exclude=‘int32‘) 2 df.dtypes 3 df.select_dtypes(exclude=‘int64‘)
1 df.mean(0) # 返回所有列的均值 2 df.mean(1)[:3] # 计算前5个样本所有数值型特征的均值 3 4 df_number = df.select_dtypes(include=‘number‘) 5 df_number.head(1) 6 7 df0 = df_number.iloc[0] 8 df0.mean() 9 10 df.count() # 查看非缺失值样本的数量
1 # describe() 方法可以查看各种特征的均值,标准差,最小值,最大值以及分位数 2 df.describe() 3 4 # info() 方法显示各列数据的类型,非空值数量等 5 df.info() 6 7 # cov() 协方差,描述各种特征之间的关系 8 # 协方差的绝对值不反应线性相关的程度 9 df.cov() 10 11 # corr() 相关系数,表示线性相关的方向和线性相关的程度,值域为[-1, 1] 12 df.corr()
df.rename(columns=lambda x:x[:2].upper()+x[2:].lower())
1 # 层次化索引 2 data = pd.Series(np.random.randn(5), index=[[‘a‘, ‘a‘, ‘b‘, ‘b‘, ‘b‘], [‘a1‘, ‘a2‘, ‘b1‘, ‘b2‘, ‘b3‘]]) 3 4 data.index
标签:clu input 操作 数据 com common chunk 文件读取 填充
原文地址:https://www.cnblogs.com/xmdykf/p/12203352.html