标签:注意 图片 dev 文件 esc 加载 行数据 数据处理 入库
1.分析目的:根据过往电商成交数据进行数据分析发现规律和问题从而指导业务
2.数据
导入库
导入数据
加载好数据之后,第一步先分别使用describe和info方法看下数据的大概分布
加载device_type
3.数据清洗
orderId
orderId在一个系统里是唯一值
先看下有没有重复值
如果有重复值一般最后处理,因为其他的列可能会影响到删除哪一条重复的记录
先处理其他的列
userId
userId只要从上面的describe和info看下值是不是在正常范围就行
对于订单数据,一个用户有可能有多个订单,重复值是合理的
productId
productId最小值是0,先来看下值为0的记录数量
177条记录,数量不多,可能是因为商品的上架下架引起的,处理完其他值的时候把这些记录删掉
cityId
cityId类似于userId,值都在正常范围,不需要处理
price没有空值,且都大于0,注意单位是分,把它变成元
payMoney
payMoney有负值,下单不可能是负值,所以这里对于负值的记录要删掉
删除负值的记录
单位变成元
channelId
channelId根据info的结果,有些null 的数据,可能是短的bug等原因,在下单的时候没有传channelId字段
数据量大的时候,删掉少量的null记录不会影响统计结果,这里直接删除
deviceType的取值可以看device_type.txt文件,没有问题,不需要处理
createTime和payTime都没有null,不过要统计2016年的数据,所以要把非2016年的删掉
回过头来把orderId重复的记录删掉
把productId为0的也删除掉
数据清洗完毕,开始分析
4.数据处理和分析
先看下数据的总体情况
总订单数,总下单用户,总销售额,有流水的商品数
分析数据可以从两方面开始考虑,一个是维度,一个是指标,维度可以看做x轴,指标可以看做y轴,用一个维度可以分析多个指标,同一个维度也可以
做降维升维
按照商品的productId
先看下商品销量的前十和后十个
销售额
看下销量和销售额最后100个的交集,如果销量和销售额都不行,这些商品需要看看是不是要优化或者下架
price
对于价格,可以看下所有商品价格的分布,这样可以知道什么价格的商品卖的最好
很多价格区间没有商品,如果有竞争对手的数据,可以看看是否需要补商品填充
对应的价格
下单时间分析
按小时的下单量分布,可以按时间做推广
中午12,13,14点的下单比较多,应该是午休的时候,然后是晚上20点左右
按照星期来看,周六下单最多,其次是周五周日
下单后多久支付
绝大部分都在十几分钟之内支付完成,说明用户基本很少犹豫,购买的目的性很强
月成交额
标签:注意 图片 dev 文件 esc 加载 行数据 数据处理 入库
原文地址:https://www.cnblogs.com/daisyxxx/p/12683760.html