一杯茶如何为现代统计分析奠定基础
快速阅读: 据《有线》称,费希尔批评内曼-皮尔森方法,但两者都被简化为固定的规则,影响科研判断。内曼引入置信区间量化不确定性,但其复杂性常令人困惑。医学界逐渐重视置信区间,却仍受费希尔5%阈值影响。原著摘自《确定性背后的不确定性》。
费希尔对内曼-皮尔森的批评反应不佳。作为回应,他称他们的方法为“幼稚”和“荒谬的学术”。特别是,费希尔不同意在两个假设之间做出决定的想法,而不是像他所提出的那样计算“证据的重要性”,因为他的显著性检验只提供了一个临时的意见,可能会被后来修订。尽管如此,费希尔呼吁科学开放心态的努力因他坚持研究人员应该使用显著性水平(p值阈值),并且声称他会“完全忽视所有未达到该标准的结果”而受到削弱。激烈的争议逐渐让位于几十年的模棱两可,因为教科书逐渐将费希尔的零假设检验与内曼-皮尔森的基于决策的方法混为一谈。关于如何解释证据的微妙辩论,包括统计推理和实验设计的讨论,变成了学生需要遵循的一套固定规则。主流科学研究开始依赖于简单的p值阈值和非此即彼的判断。在机械化的世界里,实验效应要么存在,要么不存在。药物要么有效,要么无效。直到1980年代,主要医学期刊才开始摆脱这些习惯。讽刺的是,这种转变的很大一部分可以追溯到内曼在1930年代早期提出的一个想法。在大萧条时期经济困难的情况下,他注意到人们对统计洞见的需求正在增长。不幸的是,政府用于研究这些问题的资源有限。政治家们希望在几个月甚至几周内看到结果,没有足够的时间和金钱进行全面的研究。因此,统计学家不得不依靠采样一小部分人口。这是一个发展一些新的统计思想的机会。
假设我们想估计一个特定的值,比如生育率。如果我们随机抽取100个成年人,发现他们都不是父母,这对我们国家整体意味着什么?我们不能确定地说没有人有孩子,因为我们如果抽取另一组100个成年人,可能会发现一些是父母。所以我们需要一种方法来衡量我们对估计结果的信心程度。这就是内曼的创新所在。他展示了我们可以计算一个“置信区间”来告诉我们应该预期真实总体值出现在某个范围内的频率。置信区间的概念较为复杂,因为它要求我们通过想象收集许多其他假设样本来解释实际生活中的数据。就像那些I型和II型错误一样,内曼的置信区间解决了一个重要问题,只是通常会让学生和研究人员感到困惑。尽管有这些概念上的障碍,有一个能够捕捉研究中不确定性的测量是有价值的。
在媒体和政治中,人们往往倾向于关注单一的平均值。单一值可能感觉更自信和精确,但最终它是一种误导性的结论。在我的同事和我在公共卫生领域的流行病学分析中,我们因此选择只报告置信区间,以避免不恰当的关注落在具体数值上。自1980年代以来,医学期刊更加关注置信区间而不是单独的真或假主张。然而,习惯很难改变。置信区间与p值的关系也无益处。假设我们的零假设是治疗没有效果。如果我们对效果的95%置信区间不包含零,那么p值将小于5%,根据费希尔的方法,我们将拒绝零假设。结果,医学论文往往不太关注置信区间本身,而是更关注它是否包含某些值。医学可能正试图摆脱费希尔,但他的任意5%截断值的影响仍然存在。
节选自《确定性背后的不确定性》,亚当·库哈尔斯基著。于2025年3月20日在英国由Profile Books出版。
(以上内容均由Ai生成)