标签:null not 遍历 lambda image das code 文件名 缺失值
df=pd.read_csv(‘文件名称‘)
df.info()
df.shape
df.describe()
df.drop_duplicates(inplace=True)
data.reset_index(inplace=True,drop=True)
data.loc[data[‘列名‘].isnull()]
data.isnull().sum()
# 用0填充
data=data.fina(0)
# 将这一列的空值填充为平均值,类型为int类型
df_all[‘列名‘] = df_all.列名.fillna(int(df_all.列名.mean())).astype(‘int‘)
data.isnull().any()
data[‘列名‘].value_counts
data[‘列名‘].value_counts().sort_values()
data.groupby(‘店名‘)[‘销售额‘].sum().sort_values
cols=df_tm.columns
for col in cols:
print(col+‘:‘+str(df_tm[col].dtype))
df[‘列名‘]=df.列名.astype(‘int‘)
df.loc[:,‘bwendu‘]=df[‘bwendu‘].str.replace(‘℃‘,‘‘).astype(‘int32‘)
data[‘列名‘]=data[‘列名‘].astype(int)
mydf.dropna(subset=[‘列名‘],inplace=True)
mysf=mydf.dropna(subset=[‘列名‘])
data=data[`data[‘列名‘].isin([‘你好‘])]
例:20110/02/02====》202-02-02
data[‘列名‘]=pd.to_datetime(data)[‘time‘]
data.drop([‘列名‘],axis=1,inplace=True)
rename_list={‘原列名1:‘新列名1‘,...}
df.rename(rename_list,axis=1,inplace=True)
df[[‘列1‘,‘列2‘,‘列3‘]]
df_all=pd.merge(table1,table2,on=‘参照列‘,how=‘inner‘)
a.replace(‘\s+‘,‘‘,regex=True,inplace=True)
# ciy: 提取国家和城市
def transform_country(x):
if ‘中国‘ in x:
return ‘中国‘
else:
return x
def transform_city(x):
if ‘中国‘ in x:
return x[2:]
else:
return x
df_all[‘country‘] = df_all.city.map(lambda x: transform_country(x))
df_all[‘city‘] = df_all.city.map(lambda x: transform_city(x))
# height:提取数值
df_all[‘height‘] = df_all.height.str.extract(‘(\d+)‘).astype(‘int‘)
df_all.head(2)
# age: 提取年龄
df_all[‘age‘] = df_all.age.str.extract(‘.*?\s*\((.*?)岁\)‘).astype(‘float‘)
df_all.head(2)
data[‘列名‘].apply(lambda x:str(x)+‘天‘)
注释:str(x) 为了将数据转换为字符类型
df4[‘name‘] = df4.name.str.extract(‘([\u4e00-\u9fa5]+)‘)
m3 = data1[‘出发时间‘].value_counts().sort_index()[:]
m4 = m3[‘2020‘].index
n4 = m3[‘2020‘].values.tolist()
# 将其转化为时间格式的数组
a1 = m4.to_pydatetime()
# 时间转换成以下格式
a2 = np.vectorize(lambda s: s.strftime(‘%Y-%m-%d‘))(a1)
a3 = pd.Series(a2).tolist
输出m4,如下图所示
输出a1,如下
输出a2 ,如下
输出a3,如下
标签:null not 遍历 lambda image das code 文件名 缺失值
原文地址:https://www.cnblogs.com/James-221/p/13853032.html