标签:
今天挑战的是密度图:
表象的纷繁无常,我们总需要一种图形可以一眼表现出数据的特征。数据分布图无疑是非常能反映数据特征(用户症状)的。配合中位数和9分位数,效果更佳。
例如下图,由于保密关系我隐藏各条线分别代表什么,以及这张图是什么数据产出。单单从线条中就可以看出各个渠道下单的人群习惯买多少前的东西,并且大概分布式什么。从图中可以看出这三条线其实区别不大,粉色的渠道略微倾向用户下单的金额高一点,蓝色的渠道呢倾向用户下单的金额偏低一些。
R语言处理的具体步骤
1.用which函数调取各个渠道数据,例如heki=hekihi[which(hekihi$source =="*****"),]
2.直接用ggplot即可作图了,比例图自己就可以出
ggplot(3fsje,aes(x=amount))+geom_line(stat="density",lwd=1.0,color="blue")+
xlab("每笔订单金额")+ylab("比例")+labs(title="各渠道每笔贡献金额密度图")+
geom_line(data=12fsje,aes(x=amount),stat="density",lwd=1.0,color="green")+
geom_line(data=45fsje,aes(x=amount),stat="density",lwd=1.0,color="pink")
其实反过来想想,这种每笔订单金额,我们用excel,客单价=订单金额/订单笔数不是更加方便么。其实这一年我所有报告我都是EXCEL简单的一除了事。
客单价各个渠道差距很大,但是同样的上面的密度图反映其实差别并不大。原因在于一个渠道有批发订单,一个订单的金额过大,如果简单的用客单价的定义就可能掩盖这个问题,但是如果用密度图就不会。所以,密度图可以更加精确真实的反映事实真相。
3.
标签:
原文地址:http://www.cnblogs.com/wutongyuhou/p/5722732.html