#时间戳格式改为YYYY-mm-DD hh:MM:ss df['pdate']=pd.to_datetime(df['Timestamp'],unit='s') #从日期中快速取出月份 df_group=df.groupby([df["pdate"].dt.month,"Rating"])["Use ...
分类:
其他好文 时间:
2020-07-23 23:15:48
阅读次数:
126
Task2 数据读取与数据分析 一、数据读取 1 import pandas as pd 2 train_df = pd.read_csv('./train_set.csv', sep='\t') 首先对read_csv的函数有个清晰的认识,具体的参数的情况如下: filepath_or_buffe ...
分类:
其他好文 时间:
2020-07-23 16:48:28
阅读次数:
119
##Task2 数据读取与数据分析 ####1.学习目标 学习使用Pandas读取赛题数据 分析赛题数据的分布规律 ####2.数据读取 代码示例: import pandas as pd file_dir = "nlp_data_list" train_df = pd.read_csv("./{} ...
分类:
其他好文 时间:
2020-07-23 01:45:01
阅读次数:
80
replace() 既可以替换某列,也可以替换某行,还可以全表替换 df.replace() 或者 df[col]replace() #参数如下: df.replace(to_replace=None, value=None, inplace=False, limit=None, regex=Fal ...
分类:
其他好文 时间:
2020-07-22 20:36:06
阅读次数:
129
Pandas的Merge相当于sql的join,将不同的表关联在一个表 #读取电影数据,sep为分割符 df_ratings=pd.read_csv(r'...\datas\movielens-1m\ratings.dat',sep='',engine='python',names='UserIDM ...
分类:
其他好文 时间:
2020-07-21 23:22:47
阅读次数:
88
按数值、列表、区间、条件、函数五种方法。 Pandas查询数据的几种方法 1.df.loc(),根据行、列的标签值查询(推荐使用) 2.df.iloc(),根据行、列的数值查询(不推荐使用) 3.df.where()方法 4.df.query()方法 重点 Pandas使用df.loc查询数据的方法 ...
分类:
其他好文 时间:
2020-07-20 22:43:13
阅读次数:
115
直接赋值、apply、assign、分条件赋值 仍旧以天气数据为案例 第一步:清洗数据 df.loc[:,'bWendu']=df['bWendu].str.replace('C','').astype('int32') 上图包含了直接赋值方法 第二、apply方法 df['wendu_type'] ...
分类:
其他好文 时间:
2020-07-20 22:29:31
阅读次数:
90
Linux 磁盘管理 Linux磁盘管理好坏直接关系到整个系统的性能问题。 Linux磁盘管理常用三个命令为df、du和fdisk。 df:列出文件系统的整体磁盘使用量 du:检查磁盘空间使用量 fdisk:用于磁盘分区 df df命令参数功能:检查文件系统的磁盘空间占用情况。可以利用该命令来获取硬 ...
分类:
系统相关 时间:
2020-07-18 21:50:58
阅读次数:
99
数据选择 行选择、列选择、行列同时选择 列选择 一列 df['操作人'] 多列:嵌套列表 df[['操作人',['部门']]]#返回dataframe 列的位置:iloc #iloc:接受行,列 df[:,1:5]#所有行,1-4列 df[[0,3,4],[0,3,4]]#0,3,4行、列 行标签 ...
分类:
其他好文 时间:
2020-07-17 11:37:25
阅读次数:
76
缺失值处理 1.当缺失值的比例占数据样本的比例比较小,则可以直接删除。 2.数据补齐 查看缺失值 df = pd.read_excel(r'缺失值处理.xlsx') df 每列缺失值的总数 df.isnull().sum() 列缺失值所占的比例 #apply df.apply(lambda x: s ...
分类:
其他好文 时间:
2020-07-16 21:46:44
阅读次数:
117