大数据与研究者的选择权
本节有点儿技术性,不感兴趣的读者可以跳过本节,不会有任何损失。可选择性无处不在,有一种过滤式选择破坏了整个科研精神,让丰富的数据变得对知识生产极其有害。更多的数据意味着更多的信息,这句话并没有错,但是也意味着更多的虚假信息。我们发现,越来越少的论文会再版重印,许多教科书,比如心理学课本,早就需要重新修订了。至于经济学,还是别提它了。你很难信任许多统计导向的科学——尤其是当研究人员承受压力,必须为了自己的职业发表论文。然而,这一切却打着“推动知识进步”的旗号。
回想一下副现象的概念,这是现实生活和图书馆之间的区别。与那些看到真实事件的发展过程,以观察现实生活的一般顺序看历史的人相比,从图书馆的角度看历史的人一定会看到更多具有欺骗性的关系。他会被更多的副现象所欺骗,其中之一便是多余数据而非真实信号带来的直接结果。
我们在第7章中讨论了噪声的产生。在这里,它构成了另一个严重问题,因为研究员与银行家一样,也是有选择权的。研究者得到利益,而真理却蒙受损失。研究人员手里的免费选择权在于他能够挑选任何能够证实其观点,或展现出良好结果的统计数据,而抛弃其余部分。一旦他获得了他认为正确的结果,他就有权选择停止研究。此外,他还能找到统计关系——欺骗性的东西浮出了表面。数据有一个特定属性:在大型数据集内,大的偏差很大程度上来源于噪声而非信息(或信号)。
以下两种医学研究是有区别的:(1)观察性研究,研究人员主要在他的电脑上观察统计关系,和(2)双盲队列实验,以模拟现实生活的方式来挖掘信息。
图24–1
大数据的悲剧。变量越多,“老练”的研究员手中的显著相关性越多。虚假相关性的增长比信息增长得更快,数据因而呈现出非线性(凸性)
前者,也就是在计算机上进行观察,会产生各种各样的结果,而根据约翰·约安尼季斯的计算,十有八九的结果是虚假的——但这些观察性研究却频频见诸报纸和一些科学期刊。值得庆幸的是,这些研究并未被美国食品及药品监督管理局(FDA)所接受,因为该机构的科学家深谙研究内幕。我和积极反对虚假统计数据的斯坦·杨,在《新英格兰医学杂志》上看到一篇声称其统计数据具有显著性的研究,而这些结果在我们看来其实随机性很强。我们致信该杂志表达我们的意见,结果却石沉大海。
图24–1显示了一些潜在的虚假统计关系的数量正在不断激增。我们的想法如下所示:如果我有一组200个随机变量,彼此完全无关,但在统计运算中几乎不可能找不出某种高度相关的关系,比如相关度达30%的情况,但是,这完全是虚假的。我们有技术来控制这种过滤式选择(其中一种方法被称为邦费罗尼校正法),但即使用了这种方式也没法抓住那些弄虚作假的人,就像监管机构无法阻止内部人欺诈一样。这就解释了为什么在破译人类基因组约12年之后,我们也没有发现多少具有统计显著性的东西。我不是说数据中没有信息:但问题是,这如同大海捞针。
即使实验也可能因偏见而受影响:研究人员有动机选择那些与其寻求的观点相符合的实验结果,而隐藏起失败的结果。研究人员还可以在得到实验结果后拟定一个假说,再将假说套用在行为上。不过,这个偏见的影响要比前者稍小。
受数据愚弄的效应如今愈演愈烈。有一个被称为“大数据”的讨厌现象,研究者们将过滤式选择用到了大数据中。现代化提供了太多的变量(但每个变量的信息却太少),而虚假统计关系的数量增长要比真实信息快得多,因为噪声是凸性的而信号是凹性的。
我们将越来越多地看到,数据只能真正提供以否定法界定的知识——它可以有效地用于揭穿,而非确认某种观点。
遗憾的是,我们很难得到资金支持来重制——和驳斥——现有的研究。即使能找到融资,也很难找到敢做的人:重制研究成果不会让任何人成为英雄。因此,我们会因对实证结果(除了那些以否定法界定的知识)不信任却又无计可施而寸步难行。回到我说过的业余爱好者和悠闲喝茶的英国牧师的浪漫想法上:专业研究员们往往相互竞争以“找到”统计关系。而科学绝非一种竞争,它不可以用排名来表现——我们可以看到这样一种系统最终将如何崩溃。知识必定不能容忍代理问题的存在。