标签:
0. 不知道的请绕开,前方高能
1. 一定要用图形来显示数据——So Bigger
大多数的时候,我们需要开发各种各样的图表来满足感官上的成就——然而大多数的图表是没什么卵用的,例如Pie Chart在90%的情境下都是没什么卵用的,所存在的意义仅仅是为了撑版面而已,通常情况下的饼图我是从来不看的。
好忧桑的饼……
2. 多重比较谬论——概率性事件影响决策
此处请观赏有名的吃糖豆~长青春痘漫画:
P < 0.05 的问题我不敢装逼,请看知乎回答(附连接)
作者:stevenliuyi
链接:https://www.zhihu.com/question/21232840/answer/17951143
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
假设有某甲在猜硬币玩,连猜五次后我们发现他次次都猜中。于是我们认为他在做假,因为如果他没做假的话,连续猜对五次的概率只有1/32=0.03125,小于我们预先定义的小概率(比如说0.05)。
(如果知道什么是p值的话,这里我们定义的零假设H0为某甲没有做假,p=0.03125表示我们拒绝H0只有约3%的犯错几率。如果不知道什么是p值的话也没关系,在这里并不重要)
上面这个判断没有问题,但如果涉及到多重比较(multiple comparison)的话就不一样了。前面的例子只用了一枚硬币,而这次我们改用100枚不同颜色的硬币(这就是所谓的多重比较),有红色硬币、黄色硬币、绿色硬币、粉色硬币、紫色硬币等等。实验中,我们让某甲每枚硬币各猜五次,然后我们发现,在猜其他颜色的硬币时某甲都有猜错,但在猜绿色硬币时他连猜五次都猜对了。那么,我们是不是能像前面一样,认为他虽然在猜其他硬币时没做假,但在猜绿色硬币时做假了呢?简单计算一下就可以发现,当我们用100枚硬币做实验时,出现一枚或以上硬币五次都猜对的概率为1-(1-1/32)^100 = 0.958。显然,这时我们就不能再说某甲在猜绿色硬币时做假了,即便单就那一枚绿色硬币来说,连续猜对五次的概率还是只有0.03125。
看懂了吗?说实话我特么的真的没看懂……
当样本足够多的时候,一些看似不可思议的事件就会变成概率性事件。
3. 相关不蕴涵因果(correlation does not imply causation)
经典的问题如下:
很多人会将相关关系错误的理解为因果关系——因为冰淇淋卖的多,所以溺水死亡的人就多。
你可能会觉得这个问题好Naive,现实生活中不可能有这种傻X,但是事实上,现实生活中类似的案例比比皆是——不仅如此你还很难察觉到,很多数据分析中两个有一定联系的指标维度成线性关联,但是你不能说是因为A导致了B。
强调当两个变数有明显的相关时,不一定表示两者之间有因果关系。
举例来说,流行病学研究曾发现,接受激素替代疗法的妇女,发生冠心病的比率较一般人低,使医界一度认为激素替代疗法有预防冠心病的效果。然而后续的随机对照实验显示,激素替代疗法会使冠心病的发生率增加。重新分析资料后发现,接受激素替代疗法的妇女社会地位多半较高,她们通常有较好的饮食、运动习惯,因而比较不容易发生冠心病。
——维基百科
4. 摘樱桃(Cherry picking)
摘樱桃的意思是选择最优数据项来描述一个所谓的“事实”,也就是选择性描述数据——反过来讲就是掩盖事实(suppressing evidence),假设我们要收购一家公司,这家公司拿出的财务报表非常漂亮,最高盈利三千万一个月以此来证明公司是有潜力的、值得收购的——但是事实真的如此吗?这种蹩脚的欺骗手法在生活中也是比比皆是,放在数据分析中,我们通常用选择性偏倚(Selection bias)来描述,这通常在选择抽样标本对整个Category进行统计时发生。
最常见的比如:大家都认为是辍学成就了比尔盖茨,而往往忽略了是因为比尔盖茨本来就很牛逼才辍学的,你有种辍学一个试试?分分钟教你怎么做人。
PS:一倍和两倍到底啥区别啊?
标签:
原文地址:http://www.cnblogs.com/blood-bugman/p/5554192.html