假设检验背后那点事儿

Published at 2021-10-18 07:33

Author:zhixy

View:1056


统计推断中的假设检验,是数据分析最常用的技术之一。理论上,但凡涉及抽样的问题,都需要进行假设检验。包括方差分析、回归分析和相关分析,这些字面上看起来与假设检验无关的分析技术,实际上也是以假设检验为核心的。当前广泛使用的假设检验基本源自Neyman-Pearson的理论。NP理论汲取了卡方拟合优度检验(K. Pearson)和显著性检验(R.A. Fisher)思想的精华,完备了显著性检验的数学基础。

假设检验中使用频率最高的要数检验。分布中统计量的诞生,主要是为了解决小样本条件下样本平均数的概率分布问题。当总体方差未知,且样本容量较小时,用样本方差代替总体方差构建形似统计量的新统计量,它不再服从标准正态分布。实践中,方差未知和小样本又是最常见的情形,检验在假设检验中的地位可见一斑。下面我们构建一个适用检验的场景,来谈谈假设检验背后的基本逻辑思想。

假设某科研团队研发了一种神奇的药物,声称可以提升人类智商,现在需要测试药物是否真的有效。这个问题的答案只有两种对立的结果:药物无效和药物有效,不存在模棱两可的效果,也不存在对部分人群有效或无效的选择性差异。首先,将这两种结果转变成“假设”的形式,对应无效回答的称之为零假设,用表示,对应有效回答的称之为备择假设,用表示。NP理论设立对立的两种假设,有别于R.A. Fisher的显著性检验思想,后者仅针对问题提出一个假设。有了对立的假设,还需要找到一个与假设直接相关的量,并将其取值的不同范围与假设是否成立联系起来。因为需要检验的是这个药物是否会提高智商,而恰巧智商是可以定量描述的,所以与假设联系起来的量自然就是智商的IQ值。接下来,我们就可以动手收集数据了。出于种种原因有一小撮志愿者愿意参与药物试验,服药一段时间后测试了他们的IQ值。最后根据样本数据,进行统计计算,作出零假设是否成立的判断。这里我们一笔带过了最核心的环节,即进行统计计算,究竟如何计算?又为何那样计算呢?下面我们展开来详细说明。

在开始之前,有件事情需要先交代一下。实践中对于该检验问题,合理的设计应该是在受试者服药前后的分别获得IQ值数据,然后在两者之间进行比较。因为志愿者在试药前IQ值的分布,一般不太容易与人类IQ总体分布向吻合。有可能志愿者的IQ样本分布的中心(均值)相对于IQ总体分布的中心是向左移的,也可能是向右移的。造成这种偏差的主要原因是,志愿者并不是从人类总体中随机抽取的,而自愿报名的。样本的组成很大程度上反应了志愿者的主观意愿。这里为了简化问题,我们作单样本检验,即将志愿者的样本分布视为从人类IQ总体分布中随机抽取的。下面我们正式开始讨论NP理论是如何思考假设检验问题的。

用概率论的方式理解,IQ值是一个随机变量。作为总体,全人类的IQ有一个总体分布。这一小撮志愿者在服药后的IQ值,作为样本,也有一个样本分布。假设全人类IQ的总体分布有均值,样本有均值。这里我们约定该药物对受试者的IQ没有副作用,也就是说该药物不会降低原本的IQ值。因此,用定量的方式描述药物的效果,即。如果这个IQ差值很大,比如,那么剩下的几乎就只有欢呼雀跃了。可是如果差值是之类的结果呢?你是不是会犹豫呢?还有如果差值是负值呢?因为样本是随机抽的,所以用药前的IQ样本均值可能小于,此时如果药物无效,且智商测试没有偏差的话,差值就会为负。综合来说,当大的越多,我们对药物无效的零假设信心越不足;当差不多甚至小于时,我们对药物无效的零假设信心越足。现在就可以将两种假设与IQ值的取值范围联系起来了:表示用药后的具体取值)。这里再引入NP理论的第二对概念:接受域拒绝域。当时是要接受的,所以就称为接受域,相应的称为拒绝域。

接受域和拒绝域虽然可以这样泾渭分明的定义,但是显然不能根据这样的标准来判断假设是否成立。正如上面所说的,当差值很大时(在拒绝域内)我们对成立的信心就会增强;而当差值较小时,虽然也在拒绝域内,但这时对成立的信心会大大降低。面对不同差值信心发生变化,这背后隐含的逻辑是非常自然的。但还是要追问下去,为什么较小的差值会让我们对拒绝接受的信心不足?这个问题直接关系到假设检验的核心思想。假如药物确实是无效的,那么所得到的样本数据,就相当于从人类IQ的总体中随机抽取了一小撮。现在让我们聚焦在这一小撮受试者的IQ均值上,可能小于等于,也可能会大于。所以的取值落在拒绝域里,也可能成立。但是随机抽样的原理告诉我们,离很近的可能性要大于远离的可能性。而且,随着离的距离越远,可能性越低,甚至低到我们不在相信这组样本是从均值为的正态总体中抽取的,换句话说,对于观察到的较大的差值,我们开始相信这个更可能是来自一个比更大均值的总体。这就是面对差值时对信心满满,而差值会让我们信心不足的原因。

仅仅理解这一点是不够的,接下来我们必须用定量的方法来衡量对成立的“信心”。而衡量“信心”的最好方法就是计算概率。必须强调,这里所谓的“信心”指的是“认为药物无效”的信心。前面已经说到如果样本是从IQ总体中随机抽取的,也就是“认为药物无效”,那么落在总体均值附近的概率概率最高,所以用概率描述“认为药物无效”的信心,就相当于计算的概率。那么,的概率该如何计算呢?一种方法是从总体中再随机地多次重复抽取样本,每抽取一组就计算一个,当重复次数足够多时就可以近似地描述的概率分布。然而这种方法多数情况下是不现实的,比如对总体的信息知之甚少,而需要通过重复试验获得样本数据的时候,这种方法的成本是相当大的。第二种方法,就是从理论上推导出的概率分布,或者推导出的函数的概率分布。而且所得的概率分布没有未知参数,也就是说可以直接计算相关概率的。服从正态分布的随机变量经过标准化后的随机变量,即,是服从标准正态分布的。利用同样的思想,我们对构建类似的统计量,其中分母部分是的标准差,分子部分的的均值或数学期望。因为前面关于概率的推理是以“药物无效”为前提的,所以虽然形似,但它们的概率分布不同,服从分布,所以通常之为统计量。显然第二种方法更好,但如果随机变量的概率分布很难获得解析的数学表达式,同时通过计算机模拟可以实现从某总体中随机抽样时,第一种方法也是可以有效解决问题的。

有了概率的计算方法,并用它来衡量“认为药物无效”的信心,接下里就要有一个标准来衡量当这种信心低到什么程度时就该放弃“药物无效”的判断了。NP理论说,约定一个所谓显著性水平,当的概率低于时就可以放弃“药物无效”的判断。也就是说,附近的高概率,沿数轴向右增大时概率越来越小,当越过一个临界值时(此时取到比当前值以及比当前值还大的值的概率等于)就要放弃“药物无效”的判断。通过概率分布的上分位数可以确定这个临界值。具体的计算过程是这样的:

其中分布的累积分布函数,根据上分位数的定义,所以有

这里特别需要注意的是,构建统计量时,我们将的均值定为,其意义在于假定了是成立的。现在终于可以做出判断了:只要就可以拒绝接受,也就是认为“药物有效”,反之则认为现有数据不足以否定“药物无效”,应该接受。这种判断方法,在数理统计学中,就称为一个”检验“。”检验“一词有动词和名词两种含义。动词含义指的是判断全过程的操作,而名词含义指的是判断的标准,关键点就在检验临界值上。在名词意义上,一个“检验“就是一个函数,这个函数表示的是检验统计量(这里就是)到判断结果的映射关系。既然检验是一个函数,不如就用一个符号。所以接受,否则拒绝

判断已经完成,但假设检验的任务还不算结束。现在思考一下,依据上述推理做出的判断有没有可能出错呢?假如判断是“药物有效”,也就是否定了。虽然取到当前极端值的概率小于,但小概率不代表不会发生。反过来假如判断是“药物无效”,也就是取到当前值的概率大于,尤其是比大的不多时,样本来自于比大的总体的可能也是有的,甚至还不小。总结一下,第一种情况就是零假设为真时被拒绝,第二种情况是零假设为假时被接受。NP理论分别称两种情况为第一类错误第二类错误。事实上只要做出判断就有可能犯错,所以只要将犯错的可能性控制在合理的范围内即可。对于第一类错误,它发生的概率是已经被控制在之内了,所以只要做出否定的判断,犯第一类错误的概率都会在以下。对于第二类错误,要控制它在较低的水平之内就比较困难和复杂了。为了讲清楚第二类错误的控制问题,还需要引入NP理论中又一个重要的概念——功效(Power)。

功效指的是当使用检验被拒绝的概率,我们用表示。在检验神药的场景中,。那么用检验接受的概率等于。当为真时,如果就犯了第一类错误,因此这时我们要将约束在水平之下。当为假时,如果就犯了第二类错误,因此这时我们要也同样约束在一个很小的水平之下。也就是说,为真时,希望功效越小越好;而当为假时,希望功效越大越好。这与区间估计问题中,既要保证可靠度又要求精度的矛盾是类似的。NP理论约定,首先让保证犯第一类错误的概率在水平之下,然后尽可能的降低犯第二类错误的概率,也就是要让功效尽可能的大。剩下的问题就是功效该如何计算了。因为

注意这里与临界值的推导过程不同,构建统计量时我们将的均值定为,也就是假定了成立。也就是说在推算时,我们假定成立,且让约束水平内;在这里我们假定成立,得到 的表达式并尝试让它尽可能的大。前后两次虽然假定不同,但是临界值是一样的,因为一个检验只有一个临界值。现在将,代入上式得

。现在终于清晰了,当为假时,功效与4个量有关系:检验水平越大,越小,功效越大;样本容量越大,功效越大;样本标准差越大,功效越小;药物的效果,也就是处理因素效果越好(差值越大),功效越大。通常我们约定一个检验的功效最小要达到

假如我们选择的话,那么也就是第一类错误的概率将,第二类错误的概率将。了解了功效与那些量有关后,下面来思考一下功效的意义。功效指的是当使用检验被拒绝的概率,所以功效越大,被拒绝的概率越大。也就是说当一个检验的功效较大时,我们得到拒绝的结果越可靠,重现性越好。但在实践中,一定要结合与功效相关的个量来综合考虑。个量中,检验水平对功效的影响一般可以忽略。样本标准差越大功效越小,但这里要注意的是样本标准差是对总体标准差的估计,因此只要我们努力让随机抽样是理想的、没有偏差的,那么标准差对功效的影响也视为恒定的;处理因素的效果,其实在检验开始前已经确定了,它本质上是与检验无关的量,所以也可视为不变的;最后也是最关键的样本容量,当增加时功效跟着增加,这是我们期望看到的。但是当处理因素效果并不明显,一味的增加样本容量,也能提升功效,也将会得到稳定的拒绝的判断。所以样本容量实际上是一把双刃剑。

大功即将告成,还差最后一个任务,也就是计算值。详见P值到底是什么?