概率论与数理统计

7 参数估计

2019-06-04 15:47 CST
2019-06-13 20:53 CST
CC BY-NC 4.0

7.1 矩估计

设总体的分布为$F(x; \theta)$,其中$\theta$为$k$维向量。根据样本$X_1, X_2, \dots, X_n$构造一个统计量$\hat{\theta}(X_1, X_2, \dots, X_n)$作为$\theta$的估计,则称$\hat{\theta}(X_1, X_2, \dots, X_n)$为$\theta$的估计量。如果$x_1, x_2, \dots, x_n$是一个样本观察值,带入$\hat{\theta}$后得到的具体值$\hat{\theta}(x_1, x_2, \dots, x_n)$称为$\theta$的估计值。这样的估计称为点估计。

矩估计的思想方法使用样本矩去作为总体矩的估计。具体地,设参数$\theta$可以表示为总体矩$\mu_1, \mu_2, \dots, \mu_k$的函数$\theta_i = h_i(\mu_1, \mu_2, \dots, \mu_k)$,以样本矩$A_1, A_2, \dots, A_k$代替总体矩$\mu_1, \mu_2, \dots, \mu_k$所得的估计量就是矩估计量。具体步骤如下:

  1. 求总体的各阶原点矩 $$\mu_i = g_i(\theta_1, \theta_2, \dots, \theta_k),$$
  2. 解上述方程组,得 $$\theta_i = h_i(\mu_1, \mu_2, \dots, \mu_k),$$
  3. 将样本矩$A_1, A_2, \dots, A_k$代替总体矩$\mu_1, \mu_2, \dots, \mu_k$,即得矩估计 $$\hat{\theta}_i = h_i(A_1, A_2, \dots, A_k).$$

若$h$为已知的连续函数,可以证明 $$h(A_1, A_2, \dots, A_k) \overset{P}{\longrightarrow} h(\mu_1, \mu_2, \dots, \mu_k),$$ 这称为矩估计得相合性

需要注意的是,方差$\sigma^2$的矩估计并不是(修正)样本方差$S^2$,而是样本二阶中心距 $$S^{*2} = \dfrac{1}{n} \sum\limits_{i=1}^n (X_i - \bar{X})^2 = \dfrac{n-1}{n}S^2.$$

矩估计的特点:

  • 直观、简便
  • 适用范围广,不需要知道总体分布的具体类型
  • 没有充分利用总体分布的信息,精度不高

7.2 极大似然估计

一般地,设总体$X$为连续型随机变量,其密度函数为$p(x; \theta)$,$\theta \in \Theta$,$\theta$为待估参数,$\Theta$为参数的取值范围。$(X_1, X_2, \dots, X_n)$为来自总体$X$的样本,则$(X_1, X_2, \dots, X_n)$的概率密度函数为

$$\prod\limits_{i=1}^n p(x_i; \theta).$$

又设$(x_1, x_2, \dots, x_n)$是样本的一组观察值,那么样本$(X_1, X_2, \dots, X_n)$落在$(x_1, x_2, \dots, x_n)$的领域内的概率近似为

$$\prod\limits_{i=1}^n p(x_i; \theta) dx_i.$$

极大似然法就是选取使得上面的概率达到最大的参数值$\hat{\theta}$作为$\theta$的估计。为方便起见,记

$$L(x_1, x_2, \dots, x_n; \theta) = \prod\limits_{i=1}^n p(x_i; \theta),$$

当样本值$(x_1, x_2, \dots, x_n)$取定时,$L(x_1, x_2, \dots, x_n; \theta)$是关于$\theta$的函数,称之为似然函数。满足下式

$$L(x_1, x_2, \dots, x_n; \hat{\theta}) = \max\limits_{\theta \in \Theta} L(x_1, x_2, \dots, x_n; \theta)$$

的最大点$\hat{\theta}(x_1, x_2, \dots, x_n)$称为$\theta$的极大似然估计值,$\hat{\theta}(X_1, X_2, \dots, X_n)$称为极大似然估计量

称$\ln L(\theta)$为对数似然函数,称

$$\dfrac{\partial L(\theta)}{\partial \theta} = \sum\limits_{i=1}^n \dfrac{\partial \ln p(x_i; \theta)}{\partial \theta} = 0$$

似然方程(组)

极大似然估计的特点:

  • 计算较复杂
  • 不变性原则:设$\hat{\theta}$是参数$\theta$的极大似然估计,$\phi(\theta)$有单值反函数,则$\phi(\hat{\theta})$是$\phi(\theta)$的极大似然估计,即 $$\widehat{\phi(\theta)} = \phi(\hat{\theta}).$$

7.3 估计量的评估标准

一、无偏性

定义 7.1 设$\hat{\theta}(X_1, X_2, \dots, X_n)$为参数$\theta$的一个估计量,$\Theta$为参数$\theta$的取值范围,若对任意的$\theta \in \Theta$,有 $$E[\hat{\theta}(X_1, X_2, \dots, X_n)] = \theta,$$ 则称$\hat{\theta}$是$\theta$的无偏估计量

样本二阶中心距$S^{*2}$不是$\sigma^2$的无偏估计。但有$E(S^{*2}) = \dfrac{n-1}{n} \sigma^2 \longrightarrow \sigma^2$,此时我们称$S^{*2}$为$\sigma^2$的渐进无偏估计

当$\hat{\theta}$是$\theta$的无偏估计,未必有$g(\hat{\theta})$是$g(\theta)$的无偏估计。

二、均方误差准则

称$E(\hat{\theta} - \theta)^2$为均方误差,记为$M(\hat{\theta}, \theta)$。显然,均方误差越小越好,这一准则称为均方误差准则

均方误差可以分为两部分: $$M(\hat{\theta}, \theta) = D(\hat{\theta}) + (E\hat{\theta} - \theta)^2,$$ 如果估计量是无偏估计,那么第二部分为0,均方误差变为方差。

三、一致性

定义 7.2 设$\hat{\theta}(X_1, X_2, \dots, X_n)$为参数$\theta$的一个估计量,$\Theta$为参数$\theta$的取值范围,若对任意的$\theta \in \Theta$,有 $$\hat{\theta}_n \overset{P}{\longrightarrow} \theta,$$ 则称$\hat{\theta}_n$是$\theta$的一致估计量

一致性是样本量趋于无穷大时对估计量的要求,是估计量的大样本性质,也成为相合性

7.4 区间估计

一、基本概念和枢轴变量法

定义 7.3 设$\theta$是总体$X$的未知参数,$X_1, X_2, \dots, X_n$是来自总体$X$的样本。若对事先给定的参数$\alpha(0 < \alpha < 1)$,存在两个统计量$\hat{\theta}_1(X_1, X_2, \dots, X_n)$与$\hat{\theta}_2(X_1, X_2, \dots, X_n)$使得 $$P(\hat{\theta}_1 < \theta < \hat{\theta}_2) = 1 - \alpha,$$ 则称区间$(\hat{\theta}_1, \hat{\theta}_2)$是$\theta$的置信度为$1 - \alpha$的置信区间,$\hat{\theta}_1$和$\hat{\theta}_2$分别称为置信下限置信上限,$1 - \alpha$称为置信度置信系数

定义 7.4 设$\theta$是总体$X$的未知参数,$X_1, X_2, \dots, X_n$是来自总体$X$的样本。若对事先给定的参数$\alpha(0 < \alpha < 1)$,存在一个统计量$\hat{\theta}_1$,使得 $$P(\hat{\theta}_1 < \theta) = 1 - \alpha,$$ 则称区间$(\hat{\theta}_1, +\infty)$是$\theta$的置信度为$1 - \alpha$的单侧置信区间,$\hat{\theta}_1$称为置信度为$1 - \alpha$的单侧置信下限。若存在统计量$\hat{\theta}_2$,使得 $$P(\theta < \hat{\theta}_2) = 1 - \alpha,$$ 则称区间$(-\infty, \hat{\theta}_2)$是$\theta$的置信度为$1 - \alpha$的单侧置信区间,$\hat{\theta}_2$称为置信度为$1 - \alpha$的单侧置信上限

用枢轴变量法求区间估计的一般方法为:

  1. 先找一个样本函数$U(X_1, X_2, \dots, X_n; \theta)$。包含待估参数$\theta$而不包含其他未知参数;且$U$的分布已知,不依赖于任何未知参数。这样的函数称为枢轴变量(枢轴变量不是统计量)。
  2. 对事先给定的置信度为$1 - \alpha$,根据$U$的分布找到两个常数$a, b$,使得 $$P(a < U < b) = 1 - \alpha,$$
  3. 利用不等式变形,由$a < U < b$解出$\hat{\theta}_1 < \theta < \hat{\theta}_2$,即得置信区间。

二、正态总体$N(\mu, \sigma^2)$中均值$\mu$的置信区间

若$\sigma^2$已知,则通过正态分布进行估计,$\mu$的置信度为$1 - \alpha$的置信区间为 $$\left( \bar{X} - u_{\alpha / 2} \dfrac{\sigma}{\sqrt{n}}, \bar{X} + u_{\alpha / 2} \dfrac{\sigma}{\sqrt{n}} \right).$$

若$\sigma^2$未知,则通过$t$分布进行估计,$\mu$的置信度为$1 - \alpha$的置信区间为 $$\left( \bar{X} - t_{\alpha / 2} (n-1) \dfrac{S}{\sqrt{n}}, \bar{X} + t_{\alpha / 2} (n-1) \dfrac{S}{\sqrt{n}} \right).$$

三、正态总体$N(\mu, \sigma^2)$中方差$\sigma^2$的置信区间

若$\mu$未知,则通过$\chi^2$分布进行估计,$\sigma^2$的置信度为$1 - \alpha$的置信区间为 $$\left( \dfrac{(n-1)S^2}{\chi^2_{\alpha / 2}(n-1)}, \dfrac{(n-1)S^2}{\chi^2_{1 - \alpha / 2}(n-1)} \right).$$

四、两个正态总体均值差$\mu_1 - \mu_2$的置信区间

若$\sigma^2_1, \sigma^2_2$已知,$\mu_1 - \mu_2$的置信度为$1 - \alpha$的置信区间为 $$\left( \bar{X} - \bar{Y} - u_{\alpha / 2} \sqrt{\dfrac{\sigma^2_1}{n_1} + \dfrac{\sigma^2_2}{n_2}}, \bar{X} - \bar{Y} + u_{\alpha / 2} \sqrt{\dfrac{\sigma^2_1}{n_1} + \dfrac{\sigma^2_2}{n_2}} \right).$$

不考 若$\sigma^2_1 = \sigma^2_2 = \sigma^2$,但$\sigma^2$未知,$\mu_1 - \mu_2$的置信度为$1 - \alpha$的置信区间为 $$\left( \bar{X} - \bar{Y} - t_{\alpha / 2}(n_1 + n_2 - 2) S_w \sqrt{\dfrac{1}{n_1} + \dfrac{1}{n_2}}, \bar{X} - \bar{Y} + t_{\alpha / 2}(n_1 + n_2 - 2) S_w \sqrt{\dfrac{1}{n_1} + \dfrac{1}{n_2}}\right).$$

五、两个正态总体的方差比$\sigma^2_1 / \sigma^2_2$的置信区间

若$\mu_1, \mu_2$已知,$\sigma^2_1 / \sigma^2_2$的置信度为$1 - \alpha$的置信区间为 $$\left( \dfrac{S^2_1}{S^2_2} \cdot \dfrac{1}{F_{\alpha/2}(n_1 - 1, n_2 - 1)}, \dfrac{S^2_1}{S^2_2} \cdot \dfrac{1}{F_{1-\alpha/2}(n_1 - 1, n_2 - 1)} \right).$$

六、非正态总体均值的区间估计(大样本法)

当$n$充分大时,根据中心极限定理,有 $$\dfrac{\sum\limits_{i=1}^n X_i - n\mu}{\sqrt{n} \sigma} \longrightarrow N(0, 1),$$

由此可得均值$\mu$的置信度为$1 - \alpha$的置信区间为 $$\left( \bar{X} - u_{\alpha/2}\dfrac{S}{\sqrt{n}}, \bar{X} + u_{\alpha/2}\dfrac{S}{\sqrt{n}} \right).$$