近日,哔哩哔哩在北京举办首届“bilibili超级科学晚”。活动现场发布了“哔哩哔哩2023年度五大科学焦点”。其中,“室温超导”作为2023年现象级科学热点,B站全年相关视频互动数达1185万。今年7月,韩国一研究团队声称成功合成室温超导材料LK-99的事件引发热议。该成果发出后,世界各地都掀起了LK-99的“复现热”,无数结果各异的复现成果出现在网络平台上,但都未能真正证明LK-99的真实性。有人认为,这是科研领域的又一次“复现危机”。
“‘复现危机’在科学界是普遍存在的。”清华大学科学史系副教授胡翌霖告诉记者,有很多可能的原因会导致科研实验结果不能复现。
其中最简单的原因是结论本身为假。即使实验者主观上没有欺骗意图,依旧可能得到错误的结论。出错的可能性很多,如实验者的观测记录方法或使用的工具存在问题,实验者在机缘巧合下得出了出现概率极低的异常结果,实验者没有充分考虑其他合理假设等。这些原因均可能导致实验者误以为实验结果正确。
然而,即使结论本身为真,也可能出现暂时无法复现的情况。
“首先,实验报告可能是不完整的。比如实验者有意隐藏或含混关键细节、实验者没有注意到关键细节等。”胡翌霖介绍,即使实验报告是相对完整的,依旧会有一些难以成文的细节阻碍复现。这其中包括实验者需要的一些默会技巧,甚至是单纯的运气好坏。
另外,对于一部分实验对象,由于人们对其性质了解较少,也可能出现误判。如分子结构有左旋和右旋之分,但早期的化学家并不认为它们是两种不同的物质,因此假定它们的化学性质是完全一样的。然而后来的研究者发现,在特定领域中——比如生物医药领域,左旋分子和右旋分子必须区别对待。类似的情形亦可以套用到今天的科学实验上。
那么,要如何判定一项科学研究结果是否可信呢?
胡翌霖告诉记者,在科研领域内,通常会用置信度、P值等指标对可信度进行量化判定。“举例来说,当针对某个命题做出A和B两种假设,假设真相为A,实验结果得到的数据就应该分布在某个区间内;而假设真相是B,结果应该在另一个区间。在实际得到若干个数据之后,计算这些数据有多大可能支持真相为A,这就是A(相对于B)的可信性。”
在被问及科学研究的可信性判断问题时,胡翌霖举了一个生动的例子。
“假设A是一颗6面骰子,那么掷出来的结果应该平均分布在1到6之间;而如果假设A是一颗20面骰子,那么掷出来的结果应该是1到20之间。如果我们做了6次实验后,实际掷出来的结果是3、3、2、5、6、4,这是否能证明A是一颗6面骰子呢?未必如此,事实上一颗20面骰子去掷6次,也有可能恰好掷出来这几个数字。在这个前提下,即使重复进行多次实验,也永远不能绝对意义上证明A不是20面骰子。但是实验做得越多,A是20面骰子的置信度就越低。A是6面骰子这一假设就越可信。”
胡翌霖表示,由于实验数据永远是有限的,且往往是离散的、存在误差的,因此,通过有限的数据不可能得出绝对的命题,只能在多个假设之间比较相对的可能性。但实际上,假设很难穷尽所有的可能性,特别是针对全新的发现,很可能有很多未知的情况。所以在提出假设的层面,科学家也会有一定的倾向,一般来说会在尽可能符合现有世界图景的情况下尽可能简洁。
8月上旬,中国科学院物理所研究团队在arxiv网站发表了一项研究成果。研究团队通过复现韩国LK-99的实验,发现导致LK-99出现类超导现象的原因可能在于其中包含的硫化亚铜杂质。这一观点的提出,是对“LK-99为室温超导体”观点的有力质疑。
“我们的实验给出了这个证据链上的关键一环,结合其他研究组所给出的证据,可以判断LK-99并非是室温超导体。”中国科学院物理所研究员、论文通讯作者之一的李政表示,科研领域对相关研究成果一直保持严谨态度,无论是证实还是证伪,都需要同行通过实验得到充足的证据。
事实上,想要解决“复现危机”绝非易事。李政说,以超导领域为例,判断一个材料是否为超导体有两个关键证据:一是零电阻,另一个是完全抗磁性,又叫迈斯纳效应。这些都是非常明确的实验现象,它的判定是明确的、标准化的——但并非所有领域都是如此。
“在一些领域,比如心理学领域,实验的复现率很低。甚至可能有将近一半的论文无法复现。”胡翌霖进一步解释说。
也正因为复现工作包含偶然性,在实验成果可信性的问题上,科研界总存在重重争论。“对待一个科学的问题,还是要从科学的角度去看待它。对于大众的热情,我们当然表示欢迎。但是对于一些哗众取宠、混淆视听的言论,也需要严肃处理。”李政表示,“科研允许犯错,但不能允许造假。我们包容的是研究方法的多样性,而不能包容那些不道德行为。”
在这一点上,胡翌霖也持有相似的观点。“我觉得在互联网时代,只要不是有意造假,科学家能够更积极地面向公众传播自己的研究并不是坏事。”他说。