统计推断 - 2

Feb.14,2020, Zhengzhou, Henan

内容:多维随机变量

联合分布、边缘分布

定理: 设 $(X,Y)$ 是离散随机向量,其联合概率质量函数为 $_{X,Y}(x, y)$, 则 $X$ 和 $Y$ 的边缘概率质量函数 $_{X}(x) = P (X=x)$ 可由下式给出: $$ fX(x) = \sum{y \in R} _{XY}(x, y) $$

条件分布、独立性

$Y$ 在条件 $X=x$ 下的概率质量函数是 $y$ 的一个函数,记做 $f (y|x)$ , 定义为: $$ f (y|x) = P (Y=y|X=x) = f (x, y)/f_X (x) $$ 有时候条件 $X =x$ 并不能提供有关 $Y$ 的新的信息,此时 $X$ 与 $Y$ 之间的关系成为独立. $\iff$ $f(x, y) = f_X(x)f_Y(y)$

直接用上式验证 $X$ 和 $Y$ 的独立性需要事先知道 $f_X(x),f_Y (y)$, 下列引理所提供的方法则更为简单:

引理: $X$ 和 $Y$ 是独立随机变量 $\iff$ 存在函数 $g (x)$ 和 $h (y)$ , 使得对任意 $x, y$ 都有 $f (x, y) = g (x) h (y)$

且期望的计算也方便许多:$E (g (X) h (Y)) =Eg (X) Eh (Y)$

定理设 $X\sim N(\mu, \sigma^2)$ 和 $Y\sim N(\gamma, \tau^2)$ , 则随机变量 $X+Y$ 服从 $N (\mu+\gamma, \sigma^2 + \tau2)$

多层模型与混合分布

混合分布是大多国内数理统计教材不会涉及到的内容。

$X|Y$ (表示 $X$ 在条件 $Y$ 下 的条件分布)服从参数为 $(Y, p)$ 的二项分布,$Y$ 服从参数为 $\lambda$ 的泊松分布。

多层模型可以让我们描述较为复杂的过程,例如下面经典的多层模型例子:

昆虫产卵的数量 $Y$ 服从泊松分布,每颗卵成活的概率为 $p$ , 求平均有多少卵能成活?

其实就是计算 $E (X)$, 下面的定理非常有用: $$ EX = E (E (X|Y)) $$ 关于对每个 E 的理解:

左边第一个 E 是关于 $X$ 边缘分布的期望; 右边第一个 E 是关于 $Y$ 的边缘分布的期望,第二个 E 是关于分布 $X|Y$ 的条件分布期望。 那么案例中的期望就是:

$EX = E(E(X|Y)) = E(Yp) = pEY = p\lambda$

如果随机变量 $X$ 的分布依赖于服从某分部的另一个量,则称 $X$ 具有混合分布。

加入上面的昆虫产卵例子中,昆虫产卵的数量因不同的昆虫而不一,也就是产卵数量 $Y$ 服从的泊松分布中的参数 $\lambda$ 也是一个随机变量,假设服从参数为 $\Lambda \sim \beta$ 的指数分布,则 $$ EX = E (E (X|Y)) = E (Yp) = pEY=pE (E (Y|\Lambda)) = pE (\beta) = p\beta $$

混合分布能帮助我们理解复杂问题,也能简化计算。

在结束本节前,我们再看一个多层模型,并计算一个条件期望

二项分布的一种推广是成功概率随某分布变动,这样的一个标准模型为:

$X|P$ 服从参数为 $(n,P)$ 的二项分布, $P$ 服从参数为 $(\alpha, \beta)$ 的 beta 分布,可以求得 $$ EX = E (E (X|P)) = E (nP) = n\frac {\alpha}{\alpha +\beta} $$

方差计算,我们再给出一个定理:

方差恒等式设 $X$ 和 $Y$ 是任意随机变量,若下列期望存在,则有: $$ VarX = E (Var (X|Y)) + Var (E (X|Y)) $$

协方差与相关

协方差与相关是两种定量刻画随机变量间相关性的工具。

协方差 (covariance): $Cov (X,Y) =E (X-\mu_X)(Y-\mu_Y)$

相关 (correlation):
$$ \rho_{XY} = \frac{Cov(X,Y)}{\sigma_X\sigma_Y} $$ 定理: $Cov (X,Y) = EXY -\mu_X\mu_Y$

定理: $X,Y$ 相互独立 $\Rightarrow$ $Cov(X,Y) =0, \rho_{XY} = 0$

注意上述定理的非等价性,其实协方差和相关本质上都是度量了随机变量间的线性关系,下述的定理更进一步说明这一点

定理: $ |\rho| = 1$ ($\rho$ 的范围在[-1,1]) $\iff$ 存在数 $a\neq 0$ 以及 $b$ 使得 $P (Y =aX+b) =1$

上述定理我们留到之后使用 Schwarz 不等式证明;

不等式

同上一章一样,本章也介绍一些常用的不等式。

数值不等式

本节的不等式都依赖于数的性质,或者说下述的简单引理:

引理:

设 $a, b,c, d >0$, 且 $p, q >1$

若有:$\frac {1}{p}+\frac {1}{q} = 1$

则有下列不等式: $$\frac {1}{p} a^p + \frac {1}{q} b^q \ge ab $$ 等号成立的条件为 $a^p = b^q$

Holder 不等式: 设 $X,Y$ 为任意随机变量,$p, q$ 满足 $\frac{1}{p}+\frac {1}{q} = 1$, 则 $$ |\operatorname{EXY}| \leqslant \mathrm{E}|X Y| \leqslant\left(\mathrm{E}|X|^{p}\right)^{1 / p}\left(\mathrm{E}|Y|^{q}\right)^{1 /q} $$ Holder 不等式最特别的情形是 $p=q=2$, 此时的不等式称作 Cauthy-Schwar 不等式: $$ |\operatorname{EXY}| \leqslant \mathrm{E}|X Y| \leqslant\left(\mathrm{E}|X|^{2}\right)^{1 / 2}\left(\mathrm{E}|Y|^{2}\right)^{1 / 2} $$

我们使用 Schwarz 不等式证明前面提到的相关系数的一些性质: $$\left|\mathrm {E}\left (X-\mu{X}\right)\left (Y-\mu{Y}\right)\right| \leqslant\left {\mathrm {E}\left (X-\mu{X}\right)^{2}\right}^{1 / 2}\left {\mathrm {E}\left (Y-\mu{Y}\right)^{2}\right}^{1 / 2} $$ 这其实就是: $$ Cov (X,Y)^2\le \sigma_X^2\sigma_Y^2 $$ 这就证明了 $|\rho| \le 1$, 等号成立的条件是,存在常数 $c$, 使得 $(X-\mu_X) = c (Y-\mu_Y)$, 也就是说相关系数等于 $1,-1$ 当且仅当 $X,Y$ 线性相关。

Holder 不等式还有其他的特殊情形,如令 $Y=1$, 则有 $$ E|X|\le {E|X|^p }^{1/p} $$ Minkowski 不等式 $$ \left[\mathrm{E}|X+Y|^{\rho}\right]^{1 / p} \leqslant\left[\mathrm{E}|X|^{p}\right]^{1 / p}+\left[\mathrm{E}|Y|^{p}\right]^{1 / p} $$

函数不等式

Jessen 不等式, 设 $X$ 是任意随机变量,如果 $g (x)$ 是凸函数,则 $$ Eg (X)\ge g (EX) $$ 下述不等式的证明很简单,但其结论非常有用:

设 $X$ 是具有期望 $\mu$ 的随机变量,$g (x)$ 是递增函数,则有 $$ E (g (X)(X-\mu)) \ge 0 $$ 将上述结论推广可得到下列不等式:

协方差不等式

  • 如果 $g (x)$ 是递增函数,$h (x)$ 是递减函数, 则 $E (g (X) h (X))\le Eg (X) Eh (X)$
  • 如果 $g (x)$ 和 $h (x)$ 同为递增或递减函数,则 $E (g (X) h (X))\ge Eg (X) Eh (X)$

协方差不等式有明显的直观解释,上述两种情况恰好反应了 $g,h$ 之间的负相关与正相关,借助该不等式我们可以直接估计期望,而无需计算高阶矩。