标签:逻辑 时间处理 取出 默认 star 相关分析 需要 划分数 code
使用适当的分析方法,对收集的数据进行分析,总结规律,提取有价值的信息,形成有效结论的过程。
基础分析方法:
对比分析、分组分析、结构分析、分布分析、交叉分析、矩阵分析等方法。
高级分析方法:
回归分析、聚类分析、决策树、神经网络、因子分析、时间序列分析等方法。
数据分析的作用:
数据分析流程:
Logical,逻辑型,布尔型
Numerical,数值型
Character,字符型
相互之间存在一种或多种关系的数据类型的集合。
Pandas中两种常用的数据结构:
用于存储一行或一列的数据,以及与之相关的索引的集合。
用于存储多行和多列的数据集合
可与Excel类比
Series、DataFrame参考印象笔记《Python数据分析与展示》
向量化计算是一种特殊的并行计算方式,可以在同一时间执行多次操作,通常是对不同的数据执行同样的一个或一批指令,或者说把指令用于一个数据/向量。
numpy中ndarray中的相关操作,即为向量化运算。
原则:
for
循环使用pandas库中read_csv
函数导入CSV文件
from pandas import read_csv
read_csv(file,encoding)
numpy库中用
loadtxt
导入CSV文件。
使用pandas库中read_table
函数导入普通文本文件。
语法:
from pandas import read_table
read_table(file,names=[列名1,列名2,……],sep="",encoding,……)
如果存在中文路径,在read_table参数中增加engine=‘python‘
参数。
使用read_excel
函数导入Excel文件。
from pandas import read_excel
read_excel(fileName,sheetname,names)
to_csv(filePath,sep=",",index=True,header=True)
![Alt text](./1499088638638.png)
dIndex=df.duplicated()
根据某些列,找出重复位置:
dIndex=df.duplicated(‘id‘)
dIndex=df.duplicated([‘id‘,‘key‘])
提取重复数据
df[dIndex]
默认根据所有列,删除:
newdf=df.drop_duplicates()
指定某一列,删除:
newdf=df.drop_duplicates(‘id‘)
df.fillna(‘value‘)
df.dropna()
读取文件时,通过指定值作为缺失值。如‘缺失值’代表缺失值:
df=pd.read_csv(r‘D:\data.csv‘,na_values=[‘缺失值‘])
strip()函数
根据已知列数据的开始和结束为止,抽取出新的列。
字段抽取函数:slice(start,stop)
。
例如:提取‘ABC1234’中的数字等。
df[‘列名‘].str.slice(0,3)
类似于Excel中的分列。
分割函数:df.str.split(sep,n,expand=False)
返回值:
根据一定的条件,对数据进行抽取。
类似于Excel中的过滤。
记录抽取函数:dataframe[condition]
注意:comments为列名。
随机抽样函数:
data.sample(n,frac,replace=False)
分层抽样:
按照某一列进行分组,用
data.groupby(‘class‘)
.其实就是对data数据进行按照class列进行分组,返回一个字典。
typicalNDict:1组抽2个,2组抽4个,3组抽6个。
将两个结构相同的DataFrame,合并成一个DataFrame。
函数:pd.concat([df1,df2,……])
numpy中,用concatenate()函数。
字段拆分的逆操作。用“+”号。
必须是str型数据:
df.astype(str)
根据各表共有的关键字段,把各表所需的记录一一对应起来。
表的合并.
字段匹配函数:
merge(x,y,left_on,right_on,how)
data[‘total‘]=data.price*data.num
无量纲化
0-1标准化
data[‘scale‘]=round(dta.score-data.score.min()/(data.score.max()-data.score.min()),2)
根据数据分析对象的特征,按照一定的数值指标,把数据分析对象划分为不同的区间进行研究。——分档
函数:
cut(series,bins,right=True,labels=NULL)
时间转换:将字符型的时间格式数据转换为时间型数据。
时间转换函数:
datatime=pd.to_datatime(dataString,format)
时间格式化:将时间型数据按照指定格式转换为字符型数据。
时间格式化函数:
dateTimeFormat=datetime.dt.strftime(format)
时间属性抽取:从日期格式里抽取需要的部分,如月、日。
抽取语法:
datetime.dt.property
根据一定的条件,对时间格式的数据进行抽取。
注意:df.ix[]:通过行号或行标签索引。
虚拟变量,也叫哑变量和离散特征编码,可用来表示分类变量、非数量因素可能产生的影响。
pd.Series.map(dict)
pd.get_dummies()
具体:
pd.get_dummies(data,prefix=None,prefix_sep=‘_‘,dummy_na=False,columns=None,drop_first=False)
描述性统计分析函数:describe()
,一次性求得基本情况。
另外,还可用下表统计函数:
还有:
根据分组字段,将分析对象划分成不同的部分,以进行对比分析各组之间的差异性。
常用统计指标:计数、求和、平均值。
分组统计函数:
将数据等距或者不等距的分组,进行研究各组分布规律。
分析两个或两个以上分组变量之间的关系,以交叉表的形式进行。
交叉计数函数(透视表):
pivot_table(values,index,columns,aggfunc,fill_value)
在分组及交叉的基础上,计算各组成部分所占比重,进而分析总体的内部特征。
外运算:
内运算:
研究两个或两个以上随机变量之间相互依存关系的方向和密切程度。
线性相关关系主要采用皮尔逊(Pearson)相关系数r来度量连续变量之间线性相关强度。
相关分析函数:
DataFrame.corr()
:计算每个列两两之间的相关度,返回DataFrame。Series.corr(other)
:计算该序列与传入列之间的相关度,返回一个数值,即相关度。根据客户活跃程度和交易金额贡献,进行客户价值分析。
RFM分析过程:
根据事物(产品、服务等)的两个重要属性(指标)作为分析依据,进行关联分析(象限分析)。
plot(x,y,‘.‘,color=(r,g,b))
plt(x,y,style,color,linewith)
plt.pie(x,labels,colors,explode,autopct)
bar(left,height,width,color)
barh(left,height,width,color)
hist(x,color,bins,cumulative=False)
地图绘制步骤:
需要安装Basemap库.
标签:逻辑 时间处理 取出 默认 star 相关分析 需要 划分数 code
原文地址:http://www.cnblogs.com/renxjtu/p/7358728.html