数据分析常见的错误思维

时间：2016-06-02 21:36:05 阅读：283 评论：0 收藏：0 [点我收藏+]

标签：

0. 不知道的请绕开，前方高能

技术分享

1. 一定要用图形来显示数据——So Bigger

大多数的时候，我们需要开发各种各样的图表来满足感官上的成就——然而大多数的图表是没什么卵用的，例如Pie Chart在90%的情境下都是没什么卵用的，所存在的意义仅仅是为了撑版面而已，通常情况下的饼图我是从来不看的。

好忧桑的饼……

技术分享

2. 多重比较谬论——概率性事件影响决策

此处请观赏有名的吃糖豆~长青春痘漫画：

技术分享

P < 0.05 的问题我不敢装逼，请看知乎回答（附连接）

作者：stevenliuyi
链接：https://www.zhihu.com/question/21232840/answer/17951143
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

假设有某甲在猜硬币玩，连猜五次后我们发现他次次都猜中。于是我们认为他在做假，因为如果他没做假的话，连续猜对五次的概率只有1/32=0.03125，小于我们预先定义的小概率（比如说0.05）。
（如果知道什么是p值的话，这里我们定义的零假设H0为某甲没有做假，p=0.03125表示我们拒绝H0只有约3%的犯错几率。如果不知道什么是p值的话也没关系，在这里并不重要）

上面这个判断没有问题，但如果涉及到多重比较（multiple comparison）的话就不一样了。前面的例子只用了一枚硬币，而这次我们改用100枚不同颜色的硬币（这就是所谓的多重比较），有红色硬币、黄色硬币、绿色硬币、粉色硬币、紫色硬币等等。实验中，我们让某甲每枚硬币各猜五次，然后我们发现，在猜其他颜色的硬币时某甲都有猜错，但在猜绿色硬币时他连猜五次都猜对了。那么，我们是不是能像前面一样，认为他虽然在猜其他硬币时没做假，但在猜绿色硬币时做假了呢？简单计算一下就可以发现，当我们用100枚硬币做实验时，出现一枚或以上硬币五次都猜对的概率为1-(1-1/32)^100 = 0.958。显然，这时我们就不能再说某甲在猜绿色硬币时做假了，即便单就那一枚绿色硬币来说，连续猜对五次的概率还是只有0.03125。

看懂了吗？说实话我特么的真的没看懂……

当样本足够多的时候，一些看似不可思议的事件就会变成概率性事件。

3. 相关不蕴涵因果(correlation does not imply causation)

经典的问题如下：

技术分享

很多人会将相关关系错误的理解为因果关系——因为冰淇淋卖的多，所以溺水死亡的人就多。

你可能会觉得这个问题好Naive，现实生活中不可能有这种傻X，但是事实上，现实生活中类似的案例比比皆是——不仅如此你还很难察觉到，很多数据分析中两个有一定联系的指标维度成线性关联，但是你不能说是因为A导致了B。

强调当两个变数有明显的相关时，不一定表示两者之间有因果关系。

举例来说，流行病学研究曾发现，接受激素替代疗法的妇女，发生冠心病的比率较一般人低，使医界一度认为激素替代疗法有预防冠心病的效果。然而后续的随机对照实验显示，激素替代疗法会使冠心病的发生率增加。重新分析资料后发现，接受激素替代疗法的妇女社会地位多半较高，她们通常有较好的饮食、运动习惯，因而比较不容易发生冠心病。

——维基百科

4. 摘樱桃（Cherry picking）

技术分享

摘樱桃的意思是选择最优数据项来描述一个所谓的“事实”，也就是选择性描述数据——反过来讲就是掩盖事实（suppressing evidence），假设我们要收购一家公司，这家公司拿出的财务报表非常漂亮，最高盈利三千万一个月以此来证明公司是有潜力的、值得收购的——但是事实真的如此吗？这种蹩脚的欺骗手法在生活中也是比比皆是，放在数据分析中，我们通常用选择性偏倚（Selection bias）来描述，这通常在选择抽样标本对整个Category进行统计时发生。

最常见的比如：大家都认为是辍学成就了比尔盖茨，而往往忽略了是因为比尔盖茨本来就很牛逼才辍学的，你有种辍学一个试试？分分钟教你怎么做人。

PS：一倍和两倍到底啥区别啊？

数据分析常见的错误思维

标签：

原文地址：http://www.cnblogs.com/blood-bugman/p/5554192.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行