本文译自 Facebook 高级软件工程师 Forrest Smith 的文章《My Favorite Paradox》。

我得到了他的授权将文章翻译为中文。

我们正生活在一个“大数据”时代。免费游戏每天收集多达 300GB 的数据,网站记录你每一个像素的点击。现在甚至可以用 A/B 测试,来测试哪种 A/B 测试工具最好用。

谎言有三种:谎言、弥天大谎、统计数据。
—— 马克·吐温

有些人会恶意操控数字来得出他们想要的结论。我们对这种操作已经不陌生。

但还有一种更隐蔽的风险:那些聪明、受过良好教育、有理性思维的人,也可能从正确的数据中,得出完全相反的错误结论。这种事比你想象中容易发生得多。


辛普森悖论

1973 年,加州大学伯克利分校因涉嫌性别歧视被起诉。数据显示男性研究生录取率为 44%,而女性只有 35%。

申请人数 录取率
男性 8442 44%
女性 4321 35%

这起诉讼引发了一项深入研究。研究结果却显示:不仅女性没有被歧视,她们的录取率甚至还更高!

这到底是怎么回事?数据不是已经很清楚了吗?

答案是:辛普森悖论

在分组数据中出现的趋势,可能在合并后消失,甚至反转。

事情是这样的:有些院系录取率高,有些则很低。而女性更倾向申请竞争激烈的院系,男性则偏好录取率高的“容易进”的院系。整体看似男性更占优势,但一旦分院系来看,反而是女性更容易被录取。

男性申请 录取率 女性申请 录取率
院系A 825 62% 108 82%
院系B 560 63% 25 68%
院系C 325 37% 593 34%
院系D 417 33% 375 35%
院系E 191 28% 393 24%
院系F 373 6% 341 7%

这是一个真实案例,也成为辛普森悖论中最经典的实例之一。

我非常喜欢这个悖论,因为它不仅会影响结果,甚至能彻底颠覆结论。而且这种“翻转”真的太容易发生了。

肾结石治疗的误导

我们再看一个案例,加深理解。

肾结石有两种治疗方法,哪种更好?

  • 治疗方案 A:350 人中成功 273 人(78%)
  • 治疗方案 B:350 人中成功 289 人(83%)

看起来方案 B 更好,对吧?其实正确答案是:方案 A!

为什么会这样?

类型 方案 A 方案 B
小结石 93% (81/87) 87% (234/270)
大结石 73% (192/263) 69% (55/80)
总体 78% (273/350) 83% (289/350)

肾结石分大、小结石,大结石更难治。而无论是哪种结石,方案 A 的成功率都更高。

关键在于两种方案中,小结石与大结石的分布不同:

  • 方案 A:87 位小结石患者、263 位大结石患者
  • 方案 B:270 位小结石患者、80 位大结石患者

因为方案 A 的样本更多是难治的大结石,所以它的总体平均治愈率被“拖了后腿”。而方案 B 虽然整体治愈率高,但那是因为它治了更多容易处理的小结石。其实每一种结石类型上,方案 A 都更优秀。

像剥洋葱一样思考

辛普森悖论就像剥洋葱:最外层的数据说方案 B 更好;你深入一层,发现 A 才是赢家;再剥一层,也许在某些特定情形下又轮到 B 更合适。

比如老年患者?肥胖患者?合并其他疾病的患者?每深入一层,你都可能翻转之前的判断。

在分组数据中出现的趋势,可能在合并后消失,甚至反转。

我喜欢这种“每剥一层就推翻结论”的过程——它挑战直觉,逼你不断思考。


游戏里的悖论

辛普森悖论不仅出现在招生或医学上,游戏数据分析也中招。

An image to describe post

想象一个 FPS 游戏,玩家们抱怨狙击手太强了。你查看数据:

  • 狙击手平均击杀数高于其他职业。

看起来玩家说得对。但深入一层:

  • 狙击手在低分段中击杀多;
  • 高分段中使用率低;
  • 某些地图上表现压制性更强。

这时候你可能开始想调整。但你还没深入够,继续剥洋葱:

  • 狙击手上手简单但上限低;
  • 克制新手爱用的职业;
  • 某些地图长视距让狙击手无敌;
  • 某些地图中,敌人经常犯错;
  • 狙击手本身没问题,是队友某个 OP 辅助太强;
  • 排位系统没能把高水平狙击手匹配到高分段;
  • 或者中等水平的狙击手被错分进了高分段。

最后两条我特别喜欢,因为:

  • 第六点说明问题根本不是“狙击手太强”,而是系统匹配逻辑错了;
  • 第七点更妙——两种完全相反的错误,会带来相似的坏结果

一个假设

我有个猜想——也许可以算是一条“定理”:

对于任何统计结果,都可以构造出一个相同数据但得出相反结论的场景。

这就是为什么,每当你得出一个数据结论时,都要问问自己:

  • 有没有可能我正处于辛普森悖论中?
  • 有没有一层数据没剥开,藏着另一种真相?

总结

无论你拥有多少数据,问对问题才是关键

你可能出于好意做分析,但问错问题就会得出错误答案。

辛普森悖论是个警钟,提醒我们:小心统计的陷阱。要常常提醒自己:

“如果我再深入一层呢?”

彩蛋故事:YouTube 的加载速度

再讲一个我很喜欢的故事。

2012 年,YouTube 工程师 Chris Zacharias 写了一篇博客《Page Weight Matters》。他在负责优化 YouTube 的视频播放页。原页面太大,达到 1.2MB,加载慢得令人抓狂。

他花了几天,把页面优化到了 98KB,减少了请求数,还用 HTML5 播放器取代了笨重的 Flash。感觉很棒,他上线了新版本。

一周后回头看数据,结果惊人:

新页面比老页面加载还慢!

平均延迟竟然上升了,怎么会?明明页面更小更快啊?

这其实又是辛普森悖论。

原因是:优化后新页面吸引了大量“新用户”,比如来自东南亚、南美、非洲等网络条件较差的地区。这些地区加载时间平均为两分钟——虽然慢,但已经能用了

而在旧版本,他们压根打不开页面,自然也就不被统计进旧数据中。

所以,从 20 分钟缩短到 2 分钟,不是失败,而是巨大的胜利。整个原本无法使用 YouTube 的人群,现在终于可以用了。

结论呢?初步统计说这是失败的上线。

所以问题来了:我们有多少次,也在数据中误入了“悖论”,却浑然不觉?