女士品茶与显著性检验

女士品茶

统计学家戴维 · 萨尔斯伯格 (David Salsburg) 所著的《女士品茶：统计学如何变革了科学和生活》一书，开篇讲述了这么一个故事。

“20世纪20年代末一个夏日的午后，在英国剑桥，一群大学教员、他们的妻子以及一些客人围坐在室外的一张桌子周围喝下午茶。一位女士坚持认为，将茶倒进牛奶里和将牛奶倒进茶里的味道是不同的。在座的科学家都觉得这种观点很可笑、没有任何意义。这能有什么区别呢？他们觉得两种液体的混合物在化学成分上不可能有任何区别。此时、一个又瘦又矮、戴着厚厚的眼镜、留着尖髯的男子表情变得严肃起来、这个问题让他陷入沉思。‘让我们检验这个命题吧’。他激动的说。...”

这个故事是作者在1960年代末，从当时在场一位统计学教授休 · 史密斯 (Hugh Smith) 那里听到的。

那个留着尖髯的男子叫罗纳德 · 艾尔默 · 费希尔 (Ronald Aylmer Fisher)。1935年，他写了一本名为《实验设计》的书，在第二章中描述了女士品茶的实验。他描述一种实验方法，以确定这位女士是否能够判断两种茶的区别；讨论了实验的各种可能结果，描述了应该测试多少杯茶、测试的顺序以及应该透露多少顺序信息给品茶的女士。费希尔计算出了在女士具有或没有分辨能力时出现不同结果的概率。

费希尔的《实验设计》所带来的影响绝不仅限于对女士品茶问题的实验和分析。这本著作在20世纪上半叶的所有科学领域掀起了一场统计革命。在费希尔之前，科学的发展虽然依赖于科学家的思考、观察和实验，但从来没有人能说清楚应当如何设计实验。回到品茶问题，解决它所设计的实验面临两个方面的困难。其一，如果女士没有分辨的能力，仅仅靠猜测，对于一杯茶而言她也有50%的机会猜对。其二，如果女士具有分辨的能力，她也可能在品鉴判断时受到一些客观因素干扰而犯错误。在百年前，统计学发展的萌芽时期，解决这个问题的难度可想而知。

费希尔的实验是这样设计的：“我们的实验包括8杯混合的茶，4杯以一种方式混合（茶倒进牛奶里），4杯以另一种混合（将牛奶倒进茶里），并以随机顺序呈现给受试者进行判断。受试者被告知以上测试方案，茶的提供顺序不是由人任意选择的，而是通过纸牌、骰子、轮盘赌之类机会游戏中使用的工具产生的，或者直接从一个已发表的随机抽样数字集中产生。受试者的任务是将8杯茶按照混合方式分成两组。”

“Our experiment consists in mixing eight cups of tea, four in one way and four in the other, and presenting them to the subject for judgement in a random order. The subject has been told in advance of what the test will consist, namely that she will be asked to taste eight cups, that these shall be four of each kind, and that they shall be presented to her in a random order, that is in an order not determined arbitrarily by human choice, but by the actual manipulation of the physical apparatus used in games of chance, cards, dice, roulettes, etc., or, more expeditiously, from a published collection of random sampling numbers purporting to give the actual results of such manipulation. Her task is to divide the 8 cups into two sets of 4, agreeing, if possible, with the treatments received.” ——引自费希尔《实验设计》第九版（1971）

费希尔在书中并未描述实验的真正结果，甚至没有明确表明那个午后真的进行了相关实验。

然而，据史密斯教授说当时那位女士判断对了所有测试。

Fisher显著性检验思想

费希尔对品茶问题的分析形成了他的显著性检验思想，为此后的假设检验理论打下了坚实的基础。

费希尔设计的实验要求8杯茶的测试顺序完全随机，相当于从8个位置上任意选择4个位置放置一种混合方式的茶（剩下4个位置放另外一种茶）。利用组合数公式$C_n^m = \frac{n!}{m!(n-m)!}$，容易得到用于测试的茶的顺序一共有70种可能性。换一种思路，我们可以在8个位置上逐一安排4个同一混合方式的茶，第1杯可任选8个位置，第2杯可任选剩下的7个位置，依次类推。位置选择的方式有$8 \times 7 \times 6 \times 5 = 1680$种。考虑到同一混合方式的茶之间是没有区别的，所以顺序也无区别，因此1680种方式中有很多位置排列方式相同的。4个位置如考虑顺序的话，排列方式有$4 \times 3 \times 2 \times 1 = 24$。所以不考虑4个同一混合方式茶的顺序，8杯茶的安排顺序有$1680 / 24 = 70$种。

70这个结果，对这个实验及其结果的解释至关重要。在最好的情况下，受试者能够正确的判断同一方式混合的所有4杯茶。这相当于从70种位置顺序中选择唯一正确的那个。然而，一个没有分辨能力的受试者仅仅靠猜测，也有$1/70$的机会将8杯正确区分。显然，这种偶然成功的几率跟实验的规模有关（这里对应于茶的测试杯数）。如果实验的规模较小，成功判断的结果可能会以相当大的概率归因于猜测。

实验者可以对这种偶然成功的几率有一定的要求，然后他才会愿意承认实验得到了一个积极的结果。假如任何可能的结果都不能让实验者满意的话，那么这样的实验也是无用的。假如实验者对这种偶然成功的几率要求高达$1/20$，也就是说在“女士没有分辨能力”这种假设前提下，当得到了偶然成功的几率大于等于$1/20$时，实验者就不会对“女士有分辨能力”报以较大的信心了。假如实验测试的不是8杯茶，而是6杯茶，两种混合方式各有3杯，偶然成功的几率刚好等于$1 /C_6^3 = 1/20$。所以这种实验的规模，无人如何也不会得到一个积极的结果。

不知出于何种原因，费希尔认为用$5 \%$的标准来要求显著性是合理且方便的，我们可以用这个标准来忽略所有未达到此标准的实验结果。当我们同意这个标准，也就是同意了以$1/70$几率发生的事件在统计学意义上是绝对显著的。任何孤立的、统计上具有显著性的实验都足以作为自然现象的证明。当然，小到$1/1,00,000$的小概率事件并不是绝对不会发生。为了断言一个自然现象是可以通过实验验证的，我们需要的不是一个孤立的结果记录，而是一个可靠的程序方法。关于显著性检验，我们可以说，当知道如何进行一个实验时，一个现象是可以通过实验验证的，而这个实验很少不能给我们一个统计上显著的结果。

品茶的实验中，如果每一杯茶都被正确分辨，我们可以认为女士兑现了她的说法。可是如果两种混合方式中各有一个分辨错误，我们该作何结论呢？因为受试者知道每种方式有4杯，所以一旦一种方式中有一个判断错误，另一种方式也会有一个错误。从4杯茶中选3杯出来作为正确判断的，和从4杯茶中选1杯出来作为错误判断的，它们的方式各有4种，所以8杯茶6杯判断正确2杯判断错误的方式一共16种。同样道理，8杯茶4杯判断正确4杯判断错误的方式一共36种方式；8杯茶2杯判断正确6杯判断错误的方式一共16种。再加上全错的1种方式和全对的1种方式，所有5种可能的结果所设计的茶的排列顺序一共有70种。

实验可能的结果	排序方式的数量	频率	累积频率
全对	1	$1/70$	0.014
3对1错	16	$16/70$	0.243
2对2错	36	$36/70$	0.757
1对3错	16	$16/70$	0.986
全错	1	$1/70$	1

实验可能的结果可分为两类分别对应两种截然对立的解释。一类是那些显示出与某一假设有显著差异的结果，在本例中，也就是假设受试者没有奶与茶添加顺序的分辨能力；另一方面，显示出与该假设没有显著差异的结果。这种假设可能被实验结果所质疑，也可能不被质疑，这也是所有实验的特点之一。如果在设计实验时明确提出来，往往可以避免很多混乱。就任何实验而言，我们可以把这种假设说成是 "零假设 (null hypothesis)"。应该注意的是，零假设在实验过程中并未被证明，而是可能被否定或推翻。也可以说，每个实验的存在只是为了给事实一个推翻零假设的机会。如果一个实验能够推翻受试者不具备感官辨别能力的假设，那么它就一定能够接受相反的假设，即受试者能够做出一些这样的辨别。

实验程序的基本保障是，测试茶的顺序的要 "随机地 "准备。事实上，这是实验过程中唯一明确引入机会法则的地方，而机会法则将完全控制我们的频率分布。"随机顺序"代表着完整的随机化程序，通过这种程序，可以保证显著性检验的有效性，以防止未被消除的干扰因素的破坏。为了证明在令人满意的随机化情况下，其有效性确实没有受到影响，让我们设想所有的干扰因素 (注入的强度、牛奶的量、品尝时的温度等等）对每一杯都是预先确定的。在零假设下，由于这些因素是影响鉴别的唯一原因，我们可以说，受试者可以做出的70种可能的选择或分类的概率也是预先确定的。如果在干扰因素被固定后，我们严格随机地将8个杯子中的4个分配给每一个实验处理。那么每一种测试茶的顺序，不管它是不是受试者作出判断的顺序，肯定会有恰好1/70的概率。假设有一种干扰因素非常重要，以至于直接导致受试者作出相关判断，那么对应的顺序和正确分类的顺序的概率也是一样的。

然而受试者很可能会对迄今为止描述的实验提出反对意见。因为一个失误就会把她的表现降低到显著水平以下。受试者可能会说尽管有时会出错，但她更多的时候是正确的。因此她可能会要求扩大实验规模，或重复实验，以便能够证明，尽管偶尔会出错，但正确的分类是占优势的。实验扩大到测试12杯茶，不同混合方式各6杯。那么，完全正确的顺序是$1/924$，10杯正确2杯错误的顺序是$36/924$。一次实验中受试者可能会出错也可能不出错，且完全正确和2杯错误是互斥事件，它们的和事件概率为$37/924$，该和事件的发生即可用来推翻零假设。由于$37/924$小于$1/20$，这样的测试可以被认为是显著的。如果采用更大的实验规模，得到的具有显著性的结果可以允许的错误的比例更高。通过增加实验的规模，我们可以使检验更加敏感，也就是将允许检测到较低程度的感官分辨力，或者换句话说，允许对零假设在数量上有一定的偏离。由于在每一种情况下，实验都能推翻，但永远不能证明这一假设，所以我们可以说，只要实验能更容易地推翻零假设，那么它的价值就会提高。再者，按照最初的设计进行重复实验，把所有能正确分类8个杯子的重复实验算作成功，也就可以得到同样的结果。每次成功的几率是$1/70$，简单地应用概率理论可以得出，在10次重复实验中会有2次或更多的成功，其频率 ($1-C_{10}^0(\frac{1}{70})^0(\frac{69}{70})^{10}-C_{10}^1(\frac{1}{70})^1(\frac{69}{70})^{9}=0.019$) 低于为测试显著性而选择的标准；因此，尽管在10次重复实验中有8次，受试者会犯一个或多个错误，但辨别力会得到证明。这个程序是扩大实验规模、增加其敏感性的第二种方式。

我们还可以尝试通过定性地改进实验来提高其敏感性，而不是定量的扩大实验规模；一般来说，改进有两种：重构实验和完善技术。与其事先确定每种混合方式应该有4个，然后通过随机过程决定测试的顺序，不如让每杯茶的处理方式独立地、随机地决定，就像抛硬币一样，这样每种混合方式被选中的机会是相等的。如果没有感官辨别力，以这种方式随机分类的8杯茶，正确分辨的机会只有$1/256$，而7个正确1个错误的机会有$8/256$。因此，在仍然只用8杯茶来检验的情况下，实验的敏感度已经提高，即使有一个杯子被分类错误，也有可能获得成功的判定。因此，在许多类型的实验中，重构实验显然是有利的。然而，对于品茶这种心理物理实验，我们也许应该放弃这一优势，因为偶尔会出现每杯茶的处理方式都一样的情况，而这除了会使受试者因意外情况而感到困惑外，还会使她无法通过比较来进行判断的真正优势。重构实验的另一种方式是：为两种混合方式设定确定的、但不相等的测试杯数。因此，我们可以安排5杯是一种混合方式，3杯是另一种，同样要求它们的顺序是随机的，并告知受试者每种茶的数量。由于从8选3的方式只有56种，所以在零假设下，现在就有$1/56$的概率是出现正确的分类结果。事实上，通过这些手段，我们不可能做得比以相等的数量提供两种处理更好，而且现在看来，选择这种平等是有道理的，因为它使实验具有最大的敏感性。

关于技术的完善，我们在上面看到，这些对实验的有效性以及我们确定其结果的重要性测试没有任何贡献。然而，它们可能是重要的，甚至是必不可少的，他们保障了被测试的现象表现出来。虽然显著性测试仍然有效，但可能如果没有特别的预防措施，即使是明确的感官鉴别也没有什么机会获得显著的成功。比如有些杯子是用印度茶，有些是用中国茶，即使处理顺序是随机的，受试者可能无法区分所调查的相对较小的风味差异，当它与不同产地的茶叶之间的较大差异相混淆时。同样地，如果在一些杯子中使用生牛奶，而在另一些杯子中使用煮沸的牛奶，甚至是炼乳，或者以不等量的方式添加糖，也会带来类似的困难。受试者有权利要求，而且为了实验的敏感性，应该排除这些种类的严重差异，而且在条件允许的情况下，每杯茶应该在所有方面都是一样的，除了被测试的方面。

如何进行这样的实验细化，完全是一个基于经验的判断问题。实验的有效性不受它们的影响。它们的唯一目的是提高其敏感性，而这一目标通常可以通过许多其他方式实现，特别是通过增加实验的规模。因此，如果决定要提高实验的敏感度，实验者就可以在获得同等结果的不同方法中进行选择；并且选择对他来说最容易的方法是明智的，不管以前的实验者是否已经尝试过。

费希尔的显著性检验思想可归纳成以下几点：

有一个明确的零假设；
设计一组实验，观察随机变量$x$，且当零假设成立时，$x$有已知的概率分布；
将$x$的取值根据对零假设的不利程度排序；
根据当前实验的当前观测值$x_{cov}$，计算$x_{cov}$和比$x_{cov}$更不利于零假设的可能取值概率，并得到和事件概率$P({x \geq\, x_{cov}}|H_0)$ ($x > x_{cov}$表示比比$x_{cov}$更不利于零假设$H_0$的值)；
选择一个显著性水平$\alpha$，当$P({x \geq\, x_{cov}}|H_0) < \alpha$时否定零假设，反之，接受零假设。

关于显著性检验的几点说明

为什么零假设必须是“无分辨能力”和“猜测问卷答案”之类的假设？

与“无分辨能力”、“猜测问卷答案”之类的假设对立的假设，无论它多么合理或真实，都不能作为零假设被实验检验。首先，因为零假设必须是确切的，即没有模糊性。“受试者有判断能力且永远不会出错”这样的假设当然也是确切的，但这个假设很容易被一次失误所推翻，而且不可能被有限的实验所证明，因为即使实验全部成功也不能证明永远不犯错。其次，在“无分辨能力”、“猜测问卷答案”之类的假设下，因为受试者做出正确判断的概率，可以先验的认定为$0.5$，所以实验结果的概率是可计算的。而在“有分辨能力”的假设下，由于受试者做出正确判断的概率不可知，所以无法计算取得实验结果的概率，进而无法判断在“有分辨能力”的假设下，取得当前结果是否是足够极端的小概率事件。

为什么需要计算当前观测值以及比当前观测值更极端值的概率，然后与显著性水平$\alpha$比较呢？

假设现在有一份包含12道判断题的调查问卷，受试者答对了其中9道题。如果要检验“受试者是随机猜测答案的”这一假设，我们可以通过二项分布来计算猜对9道题的概率为$P(x=9)=C_{12}^9 (\frac{1}{2})^{12} \approx 0.054$。虽然没有低于$0.05$，零假设成立的情况下发生的可能性也不大。现在将问卷调查的题目扩充到1000道题目，受试者通过随机猜测答对了其中500道题，其概率等于$P(x=500)=C_{1000}^{500} (\frac{1}{2})^{1000} \approx 0.025$。此时，假如仅用当前值的取值概率来和显著性水平$\alpha = 0.05$比较，将否定“受试者随机猜测答案的”零假设，得到完全错误的结论。事实上，在二项分布中，当伯努利试验的次数$n$较大时 (假设事件发生概率$p=0.5$)，即使是取值概率最大的均值$np=500$，其概率也仅有$0.025$。而当$n=260$时，均值的取值概率就已经低于$0.05$了。因此只要试验次数达到260次及以上，任何试验结果在零假设下的概率都小于显著水平。

解决这个问题的办法就是出观测值的概率之外，在观测值的概率分布中，考虑所有当前值以及比当前值更极端取值的概率之和。12道题目的试验中$P(x \geq 9) \approx 0.073$；1000道题目的测试中$P(x \geq\, 500) \approx 0.513$。此时，这两种题量的试验及其结果都不能得到与零假设有显著差异的结论了。如果要在1000道题目的测试中得到真正有显著差异的结论，只要答对的题目达到526即可，因为$P(x \ge 526) \approx 0.047$；而12道题目的测试只须要多答对1道题，因为$P(x \ge 10) \approx 0.019$。注意，12道题目得到显著差异的结果须要答对率为$83.3 \%$；1000道题目得到显著差异的结果仅须答对率为$52.6 \%$。假如让大题量的测试到达与小题量相同的答对率，则有$P(x \ge 833) \approx 0.0$。正如上文提到的，增加试验规模，是提升检验灵敏度、提高检验容错率的有效方法。

基于上述大规模试验的实例，我们知道仅看当前值在零假设下的概率是没有意义的。与显著性水平$\alpha$比较的应该是，在零假设成立的前提下，当前值以及与当前值相比更不利于零假设的取值概率之和$P({x \geq\, x_{cov}}|H_0)$。当$P({x \geq\, x_{cov}}|H_0) < \alpha$，我们可以说当前值已经足够极端，因为取到比当前值更不利于零假设的值的可能性已经很小；当$P({x \geq\, x_{cov}}|H_0) > \alpha$，则认为当前值还不够极端，因为取到比它还极端的值的可能性还很高。所以，$P({x \geq\, x_{cov}}|H_0)$描述的是当前值的极端程度，用费希尔的话说就是“the strength of the evidence against the hypothesis”，即“实验证据否定零假设的强度”。

决定“实验证据否定零假设的强度”的是未被观测到的数据。

“实验证据否定零假设的强度”越强，表示在随机变量的理论分布 (抽样分布) 中比当前值$x_{cov}$更不利于零假设$H_0$的取值越多。这些更极端的值并不是通过实验观察到的，它们的取值概率也不是通过实验估计出来的。实际上，包括$x_{cov}$在内，它们的取值概率是通过抽样分布的公式精算出来的。而且，值得强调的是这里的抽样分布是在$H_0$成立的条件下得出的。在调查问卷的例子中，抽样分布是二项分布，$P$值的计算公式为 $$ P_{one-sided} = P({x \geq\,x_{cov}} | \theta) = \sum_{x=x_{cov}}^{N} C_N^{x_{cov}} \theta^{x_{cov}} (1-\theta)^{N-x_{cov}} $$ 。令公式中的$\theta = \frac{1}{2}$，即假定了$H_0$成立。所以显著性检验的整个流程中，只有本次实验的观测值是实际产生的，其它所有信息都来自于假设性的抽样分布。这一事实为显著性检验带来了一个隐患——不同的抽样分布会得到不同的检验结果。

12道判断题的调查问卷测试中，回答对9道题的$P = 0.073$。假如问卷调查的形式是这样的：回答问卷直到刚好错了3道题后停止。假如一位受试者刚好在第12题错了3道题，所得结果跟之前的方案一致，都是错3道对9道。数据本身没有任何痕迹能够表明新的取样意图，但是这种意图将会影响$P$值。由于新的抽样符合负二项分布，在零假设下，更加极端的值为超过12道题才出现第三个错误，因此根据负二项分布的概率累积函数有 $$ P = \sum_{n=12}^{\infty} C_{n-1}^2 (\frac{1}{2}) ^ n = 1 - \sum_{n=0}^ {11} C_{n-1}^2 (\frac{1}{2})^n \approx 0.033 $$ 。这个例子清楚地表明$P$值取决于抽样方案。由此可见，当抽样方案未知时，$P$值是不确定的。也就是说$P$值会根据实验设计者的主观意图而发生变化，甚至可以通过在$P$值达到显著水平之下时停止抽样来否定一个本来为真的零假设。

显著性检验并不是对零假设为假的直接逻辑证明。

就某一特定的零假设而言，基于概率理论的任何检验本身都不能为该假设的真假提供任何有价值的证据。所以，我们不应期望于去证明每一个单独的假设的真假，或者将拒绝零假设解释为“零假设是假的”。我们能做的就是寻找某种规则，来约束我们对特定假设的行为和态度。在遵循这些规则时，我们可以确保在长期的经验中，不会经常犯错。仍以品茶问题为例，为了容错我们的规则是：用12杯茶来测试，两种混合方式各6杯；当受试者辨别错误杯数$\le 2$时否定零假设 (即受试者无分辨能力)，否则接受零假设。这样的规则对“受试者是否具有分辨能力”问题本身不会提供直接证据。但概率理论可以证明，如果我们按照这样的规则行事，那么从长远来看，当零假设是真的时候，我们拒绝它的次数不会超过924次中的37次。

当实验数据取得的$P$值较大时，并不能推定零假设就是真的，只是我们没有足够的“信心”推翻它。仅仅因为一个假设与现有事实不矛盾就相信它得到了证明的做法存在逻辑错误，这种做法在其他科学研究中不成立，在统计学中也不成立。而$P$值越小，“实验证据否定零假设的强度”越强，让我们有足够的“信心”作出“零假设为假的”判断。所以显著性检验的结果并不是经过逻辑证明的客观结论，而是依赖于实践的主观判断。逻辑证明和实践检验是判明思想真实性的两种不同方法和途径。然而在实验为主的自然科学范畴，将显著性检验的结果视为一种逻辑证明，显然是对结果的“过度解释”。因此，如果我们能够理解虽然显著性检验能够利用数据与假设之间矛盾来推翻假设，但统计检验永远无法证明假设一定是正确的，那么我们对显著性检验的理解就会更加清晰。