关于统计学中自由度的理解

Published at 2022-09-17 14:52

Author：zhixy

自由度的定义

统计学上，自由度是指当用样本的统计量来估计总体的参数时，样本中独立的或能够自由变化的观测值个数，称为该统计量的自由度。

自由度的解释

举例说明。假设我们要从一个总体中抽出10个观测值作为一组样本。因为抽样是随机进行的，而且抽样的过程可以重复多次，所以这10个观测值可视为10个独立的随机变量，它们的取值可自由变化。

注意：这里随机变量和统计学中定义——“相同性质的事物间表现差异性的某项特征或形状称为变量”，有所不同。

$\overline{x}=\frac{\sum_{i=1}^nx_i}{n}\quad\quad(1)$

在用公式1计算样本的平均数时，只有10个观测值参与了计算。因此，对10个随机观测值的一组样本而言，计算平均数时的自由度为 $n=10$ ，即10个观测值都是可以自由变化的。

$s^2=\frac{\sum_{i=1}^n(x_i-\overline{x})^2}{n-1}\quad\quad(2)$

而当用公式2计算样本的方差时，10个观测值参与了计算，同时还有一个衍生量——即样本平均数。样本平均数在这里直接导致10个观测值，至少有一个不能自由变化。这时该组样本在计算样本方差时的自由度为 $n-1=9$ 。

这里我们可以说：“样本平均数限制了10个观测值中某一个观测值的自由变化”。为什么会这样呢？

样本平均数对自由度的影响与样本平均数的重要特性之一——“离均差之和为零”，有关。

$\begin{aligned} \sum_{i=1}^n(x_i-\overline{x})&=(x_1-\overline{x})+(x_2-\overline{x})+...+(x_i-\overline{x})\\ &=(x_1+x_2+...+x_i)-n\overline{x}\\ &=\sum_{i=1}^nx_i-n\cdot\overline{x}\\ &=0 \end{aligned}$

样本平均数的重要特性二：“离均差平方和最小”。

在公式2中，因为总体平均数 $\mu$ 未知，只能用样本平均来代替 (估计)。公式2分子部分中的每一项离均差，受到“和为零”的限制。对10个观测值的样本来说，即

$x_1-\overline{x}\\x_2-\overline{x}\\...\\x_{10}-\overline{x}$

中有9个观测值可以自由变化，而最后一个观测值必须让10个离均差之和为零。这就是，“样本平均数限制了10个观测值中某一个观测值的自由变化”，的原因。

总的来说，计算不同的统计量，样本观测值的自由度是不同的，等于变量个数减掉其衍生量的个数。

自由度的作用

那么，为什么在计算样本方差需要用自由度为分母呢？

统计学中，总体永远是我们研究的终极目标。

而由于总体的无限性或出于控制成本的目的，研究总体的手段是利用随机抽样获得样本，进而通过研究样本的性质，来估计总体的性质。

比如，用样本平均数来估计总体平均数，用样本方差来估计总体方差。

估计是统计推断中的两个主要内容之一。

常识上，我们都知道只要是估计，都可能有误差；当然估计也可能的非常准确。

如上图所示，从一个总体中随机抽取了5个观测值： $x_1,x_2,x_3,x_4,x_5$ ，它们有平均数 $\overline{x}$ 。这里的 $x_6,x_7$ 表示没有被抽到的，同时又超出样本最小值 ( $x_1$ ) 和最大值 ( $x_5$ ) 覆盖范围的样本个体。

当我们用样本平均数来估计总体平均数时， $x_6,x_7$ 之类的未抽到观测值对估计的效果不会有较大影响，因为样本覆盖范围左侧的值 (如 $x_6$ ) 和右侧的值 (如 $x_7$ ) ，即使抽到了也会在计算平均数的过程中相互抵消。

也就是说，即使是小量样本也可以得到对总体平均数较为准确的估计。

当然这里的前提是，抽样没有较大误差，也就是说总体平均数应该在样本覆盖的范围内。如果总体平均数大于 $x_5$ 或小于 $x_1$ ，则抽样误差较大，那些样本覆盖范围之外的观测值的缺失就对估计产生严重影响了。

现在再来看用样本方差来估计总体方差的情况。

由于计算方差时，离均差是进行平方后再求和的，所以样本覆盖范围两侧的、未被抽到的观测值，它们的离均差平方不会像离均差那样相互抵消。

也就是说，未被抽到的观测值，它们偏离平均值的程度 (这也是方差所要衡量的)，不会被考虑在内，即

$\sum_{i=1}^n(x_i-\overline{x})^2<\sum_{i=1}^{n+m}(x_i-\overline{x})^2,\quad\,N=n+m$

其中样本容量为 $n$ ， $m$ 为总体中未被抽到的个体数量。所以，

$\frac{\sum_{i=1}^n(x_i-\overline{x})^2}{n}<\frac{\sum_{i=1}^{N=n+m}(x_i-\overline{x})^2}{N}$

注意：不等式右边样本平均数 $\overline{x}$ ，当抽完总体中的所有个体 ( $N$ 个) 时，等于总体平均数 $\mu$ 。

换句话说，像平均数的计算那样，用分母等于 $n$ 的方式计算出来的样本方差 $\frac{\sum_{i=1}^n(x_i-\overline{x})^2}{n}$ 永远小于总体方差。

为了让总体方差的估计更准确，方法就是将分母 $n$ 调小为 $n-1$ 。

为什么把分母调小为自由度 $n-1$ 就可以了？调小为 $n-2$ 可以吗？我们接着分析。

既然直接用样本容量 $n$ 作分母的样本方差来估计总体方差，总是偏低。那么，总体方差的“无偏的”估计该是怎么样的呢？

了解无偏估计之前，首先了解一下数学期望的概念。

假设有一随机变量 $x$ ，有有限个观测值 $x_1,x_2,x_3,...,x_n$ ，且每个观测值的概率分别为 $p_1,p_2,p_3,...,p_n$ ，则随机变量 $x$ 的数学期望为

$E(x)=p_1\cdot\,x_1+p_2\cdot\,x_2+p_3\cdot\,x_3+...+p_n\cdot\,x_n=\sum_{i=1}^np_i\cdot\,x_i$

而如果该随机变量 $x$ 为连续性随机变量，则其数学期望为

$E(x)=\int_{-\infty}^{\infty}x_if(x_i,\theta_1,\cdots,\theta_k)$

其中 $f(x_i,\theta_1,\cdots,\theta_k)$ 为变量 $x$ 的概率密度函数，有参数 $k$ 个参数 $\theta_1,\cdots,\theta_k$ 。

本质上，数学期望就是对事件长期价值的数字化衡量。而方法上，数学期望就是对随机事件不同结果的概率加权平均。

由于每次抽样不同，样本的平均数也将表现为一个随机变量，那么样本平均数的期望，即样本平均数的平均数，有

$\begin{aligned} E(\overline{x})&=\frac{\sum_{i=1}^{k}{\overline{x}}^{i}}{k}=\frac{{\overline{x}}^{1}+{\overline{x}}^{2}+...+{\overline{x}}^{k}}{k}=\frac{\frac{\sum_{i=1}^nx_i^1}{n}+\frac{\sum_{i=1}^nx_i^2}{n}+...+\frac{\sum_{i=1}^nx_i^k}{n}}{k}\\ &=\frac{\sum_{i=1}^nx_i^1+\sum_{i=1}^nx_i^2+...+\sum_{i=1}^nx_i^k}{n\cdot\,k}\\ &=\frac{x_1^1+x_2^1+...+x_n^1+x_1^2+x_2^2+...+x_n^2+...+x_1^k+x_2^k+...+x_n^k}{n\cdot\,k}\\ &=\frac{\sum_{i=1}^Nx_i}{N}\quad\,(N=n\cdot\,k)\\ &=\mu \end{aligned}$

可见样本平均数的数学期望等于总体平均数。换句话说，样本平均数是总体平均数的无偏估计。

同样的道理，我们可以对样本的方差 (仍然以样本容量 $n$ 作分母) 作如下推导：

$\begin{aligned} E(\frac{\sum_{i=1}^n(x_i-\overline{x})^2}{n})&=E\bigg(E\bigg((x-E(x))^2\bigg)\bigg)\\ &=E\bigg(E\bigg(x^2-2xE(x)+(E(x))^2\bigg)\bigg)\\ &=E\bigg(E\bigg(x^2\bigg)-E\bigg(2xE(x)\bigg)+E\bigg((E(x))^2\bigg)\bigg)\\ &=E\bigg(E\bigg(x^2\bigg)-2E(x)\cdot\,E(x)+(E(x))^2\bigg)\\ &=E\bigg(E(x^2)-(E(x))^2\bigg)\\ &=E\bigg(E(x^2)-\overline{x}^2\bigg)\\ &=E\bigg(E(x^2)\bigg)-E\bigg(\overline{x}^2\bigg)\\ &=E\bigg(E(x^2)\bigg)-[Var(\overline{x})+(E(\overline{x}))^2]\\ &=E\bigg(E(x^2)-(E(x))^2+(E(x))^2\bigg)-[Var(\overline{x})+(E(\overline{x}))^2]\\ &=E\bigg(Var(x)+(\overline{x})^2\bigg)-[\frac{Var(x)}{n}+(\overline{x})^2]\\ &=Var(x)-\frac{Var(x)}{n}\\ &=\frac{n-1}{n}Var(x) \end{aligned}$