(原标题:已发表的研究结果大多是错的?科学就是如此)
自2005年斯坦福大学教授John Ioannidis在PLOS Medicine杂志上发表论文《为什么已发表的研究结果大多是错的》(Why Most Published Findings Are False)以来,越来越多错误、误导性或不可重复的科研成果纷纷被曝出。
两大制药公司各就具有“里程碑”意义的癌症生物学论文进行取样,分别只证实了6%、11%的研究结果。还有一项类似的验证实验,结果也不尽如人意:在重新验证药效时,70种用于治疗老鼠肌萎缩(ALS)的潜在药物靶点全部呈阴性。在心理学领域,研究人员们试图重复100项同行评议过的研究,仅有39项重复成功……尽管大多数重复实验集中于生物医学、健康以及心理学领域,但近期的一份由多领域1500位科学家进行的调查显示,科研结果可重复性低的问题是广泛存在的。
起于科学界流言的“可重复性危机”,已摇身一变为举世瞩目的热点议题。几乎所诸多主流报纸、TED主题演讲、电视节目都曾热议这一问题。对于这一问题的解读分为两种:
科学就是这样。科学本身具有不确定性,矛盾屡见不鲜。问题是我们没有摆正自己对科学的期许。解决方法就是把还没盖棺定论的科研成果和已经确定的科研成果区分开来。
科学并非如此。矛盾的研究意味着有瑕疵的科学。相应的解决方法则是改变科学研究的操作方式。
可重复性的证据表明两者皆对:科学固有不确定性,且其方法有待改进。
科学的方法“科学”吗?
如果科学的方法是“科学”的,为什么相同的实验会产生不同的结果呢?
为了便于理解,我们可以设想一个测试重力理论的简单实验。几个世纪以来,亚里士多德的理论盛行:物体下落的速度与其重量成比例。如果你同时扔一个石头和羽毛,重点儿的石头比轻点儿的羽毛下降的快。这证明了亚里士多德的理论吗?
现在我们来想象一下,亚里士多德理论的质疑者伽利略同时扔下炮弹和步枪弹。这是对于一个相同理论的不同验证方法。尽管各自的重量是大有不同的,两个球仍同时落地。这个演示有效地证明了亚里士多德的理论是错误的(尽管没有任何证据显示伽利略本人做过)。
故事的意义不是亚里士多德彻底地错了。他的观察仍然是对的,一片羽毛总是比石头下落的慢(在地球上)。仅仅是他的结论错了。
这个思想实验说明了科学家得出的结论如何超出了实际证据——这一过程就是所谓的归纳法。归纳是科学进程里的本质部分,没有两个实验可以完全相同,这显而易见的事实可以解释为什么许多科学理论会失败。
细节重于泰山
在17世纪,罗伯特·波义耳(Robert Boyle)的气泵是研究真空属性的一个关键设备。另一位科学家克里斯蒂安·惠更斯(Christiaan Huygens)打造了他的空气泵(当时世界上仅有的几个空气泵之一),并发现一个现象:在空气泵中,水悬浮于玻璃罐内。他称之为水的“异常悬浮”。但是波义耳无法在他的气泵里重复效果,遂拒绝了惠更斯主张。争议持续几个月后,惠更斯前往英格兰用波义耳的气泵重复出了水悬浮的效果,于是水的异常悬浮现象被接受。它为何出现、意味着什么仍然是谜,但是实验重复成功了。
最近,加州大学伯克利分校的乳腺癌研究员Mina Bissell和哈佛大学的合作者Kornelia Polyak发生了类似的争议。这两个实验室利用荧光激活细胞分选(FACS)人类乳腺癌细胞,发现无法重复彼此的实验。最终他们通过共同进行实验解决了这一问题。他们发现,结果取决于振荡细胞的方式——“大力搅拌”或者“较轻微地摇晃”。排除方法上的差异后,两个实验室获得了一致的流式细胞仪数据,从而得以继续深入研究。
亚里士多德与伽利略、波义耳与惠更斯以及Bissell与Polyak 的争议,都源于实验中的不一致之处。如果所有实验条件都相同,实验的现象就会很稳定。实验结果不一样,就说明有些条件是有差别的,问题就在于,你能不能发现差别在哪里。
然而也并非所有的科学研究都会如此。
科学中的一千个哈姆雷特
1978年,陶氏化学研究者 Richard Kociba 进行了关于癌症和二噁英关系的研究。在这项研究中,科学家对老鼠喂食二噁英两年,随后对其肺部切片,以检测肿瘤的生长。在1978年研究中,服用化学物质的50只老鼠中有20只长了肺部肿瘤。1980年,环境保护局重新分析了相同的肺部切片。这一次,他们发现有29只老鼠患了肿瘤。随后在1990年,造纸行业委托另一个分析报告发现只有9只老鼠患肿瘤。3个不同的结果均来自相同的切片。(此外,1990年的分析由七位病理学家组成的团队完成,当团队无法对肿瘤判断达成一致时,采取少数服从多数原则。)
Kociba 的切片告诉我们:变化、不确定性和判断可以使给定的一个观察实验指向不同的结果。
同样的事情也发生在统计分析中。