home archives github knives links
tags
categories 概率论与数理统计
only title title and content
概率论与数理统计

第一章

定理1.1 全概率公式

deleted

定理1.2 贝叶斯公式

deleted

定理1.6 泊松定理

设$n$为正整数,$\lambda=np_n$为常数,则对任意正整数$k$有
$$ \lim_{n\to\infty}C_n^kp_n^k(1-p_n)^{n-k}=\dfrac{\lambda^k}{k!}e^{-\lambda} $$

第二章

分布函数$F(x)$的基本性质

  1. $F(x_2)\ge F(x_1)$
  2. $F(-\infty)=0,F(+\infty)=1$
  3. 右连续

常见离散型随机变量

如果随机试验$E$只有两个结果:$A$与$\bar{A}$,则称$E$为贝努利试验

设$n$重贝努利试验中$A$发生的次数为$X$,则$X$服从二项分布

$$p_k=P(X=k)=\dfrac{\lambda^k}{k!}e^{-\lambda},k=0,1,2…$$
其中$\lambda > 0$为常数

若随机变量$X\sim B(n,p)$,则当$n$充分大,$p$充分小时,令$\lambda=np$,则有
$$ P(X=k)=C^k_np^k(1-p)^{n-k}\approx\dfrac{\lambda^k}{k!}e^{-\lambda} $$

$$p_k=P(X=k)=(1-p)^{k-1}p,k=1,2…$$

在贝努利试验中$P(A)=p,P(\bar{A})=1-p$,试验进行到$A$首次出现为止

令$X$表示所需试验次数,则$X$服从参数为$p$的几何分布

无记忆性:$P(X=s+t|X > t) = P(X=s)$

一批产品有$N$件,其中$M$件次品,其余为正品
令$X$为取出$n$件产品中的次品数,$X$服从超几何分布

(连续型随机变量)密度函数$p(x)$的基本性质

  1. $p(x)\ge0$
  2. $\int_{-\infty}^{+\infty}p(x)dx=1$

常见连续型随机变量

$$p(x)=\begin{cases}
\lambda e^{-\lambda x}&x\ge0\\
0&x < 0
\end{cases}$$
其中$\lambda > 0$为常数

$X$的分布函数为
$$
F(x)=\begin{cases}
1-e^{-\lambda x}&x\ge0\\
0&x < 0
\end{cases}
$$

无记忆性:$P(X > s + t|X > s)=P(X > t)$

$$p(x)=\dfrac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}},-\infty < x < \infty$$

正态分布随机变量的线性函数仍然服从正态分布:$X\sim N(\mu,\sigma^2)$,则$Y=aX+b\sim N(a\mu+b,(a\sigma)^2)$

随机变量函数的分布

$$ F_Y(y)=P(Y\le y)=P(g(X)\le y)=\int_{x:g(x)\le y}p_X(x)dx $$

第三章

二维分布函数性质

  1. $F(x,y)$分别对每个变量单调不减

    • $\forall y,x_2 > x_1,F(x_2,y) > F(x_1,y)$
    • $\forall x,y_2 > y_1,F(x,y_2) > F(x,y_1)$
  2. $0\le F(x,y)\le1$,且

    • $\forall y,F(-\infty,y)=0$
    • $\forall x,F(x,-\infty)=0$
    • $F(-\infty,-\infty)=0$
    • $F(+\infty,+\infty)=1$
  3. $F(x,y)$关于每个变量右连续
    $$F(x,y)=F(x+0,y),F(x,y)=F(x,y+0)$$

  4. $F(x_2,y_2)-F(x_2,y_1)-F(x_1,y_2)+F(x_1,y_1)\ge0,(x_2\ge x_1,y_2\ge y_1)$

边缘分布函数$F_X(x),F_Y(y)$

联合密度函数性质

  1. $p(x,y)\ge0$
  2. $\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}p(x,y)dxdy=1$
  3. 若$p(x,y)$在点$p(x,y)$连续,则$\dfrac{\partial^2F(x,y)}{\partial x\partial y}=p(x,y)$
  4. 点$(X,Y)$落在$G$内的概率:$P((X,Y)\in G)=\iint_Gp(x,y)dxdy$

边缘密度$p_X(x),p_Y(y)$

二维随机变量函数的分布

泊松分布的可加性

$X,Y$独立,分别服从参数为$\lambda_1,\lambda_2$的泊松分布,则$Z=X+Y$服从参数为$\lambda_1+\lambda_2$的泊松分布

如果随机变量$X$与$Y$相互独立,且$X\sim N(\mu_1,\sigma_1^2),Y\sim N(\mu_2,\sigma_2^2)$

随机变量和的分布

独立正态随机变量线性函数的分布

推广:如果$X_1,X_2…X_n$相互独立,$X_i\sim N(\mu_i,\sigma_i^2)$

$$Z=a_1X_1+a_2X_2+…+a_nX_n\sim N(\sum_{i=1}^ba_i\mu_i,\sum_{i=1}^na_i^2\sigma_i^2)$$

极大极小分布

当$X_1,X_2,…,X_n$相互独立且同分布

第四章

方差

$$P(|X-E(X)|\ge\varepsilon)\le\dfrac{D(X)}{\varepsilon^2}$$

常见分布的期望与方差

记号 分布 参数 数学期望 方差
0-1分布 $0 < p < 1$ $p$ $p(1-p)$
几何分布 $0 < p < 1$ $1/p$ $\dfrac{1-p}{p^2}$
$B(n,p)$ 二项分布 $n\ge1,0 < p < 1$ $np$ $np(1-p)$
$P(\lambda)$ 泊松分布 $\lambda > 0$ $\lambda$ $\lambda$
$U(a,b)$ 均匀分布 $a < b$ $(a + b)/2$ $(b-a)^2/12$
$E(\lambda)$ 指数分布 $\lambda > 0$ $1/\lambda$ $1/\lambda^2$
$N(\mu,\sigma^2)$ 正态分布 $\mu\in R,\sigma > 0$ $\mu$ $\sigma^2$
$\chi^2(n)$ $\chi^2$分布 $n$ $n$ $2n$

协方差,cov$(X,Y)$

$$ \text{cov}(X,Y)=E[(X-EX)(Y-EY)]=E(XY)-E(X)E(Y) $$

$$ D(X\pm Y)=D(X)+D(Y)\pm2\text{cov}(X,Y) $$

其他性质

相关系数,$\rho_{XY}$或corr$(X,Y)$

$$ \dfrac{\text{cov}(X,Y)}{\sqrt{D(X)D(Y)}} $$

第五章

大数定律

对任意$\varepsilon > 0$,有
$$ \lim_{n\to\infty}\{|\dfrac{1}{n}\sum_{k=1}^nX_k-\dfrac{1}{n}\sum_{k=1}^nEX_k| < \varepsilon\}=1 $$

$$ \lim_{n\to\infty}\{|\dfrac{1}{n}\sum_{k=1}^nX_k-\dfrac{1}{n}\sum_{k=1}^nEX_k|\ge\varepsilon\}=0 $$
则称$\{X_n\}$服从大数定律,(随机变量的平均值依概率收敛于他们数学期望的平均值)

马尔科夫大数定律

设随机变量$\{X_n\}$满足$\dfrac{1}{n^2}D(\sum_{k=1}^nX_k)\to0(n\to\infty)$,则$\{X_n\}$服从大数定律

切比雪夫大数定律

设$\{X_n\}$为两两互不相关的随机变量序列,又存在常数$C > 0$,使得对每个随机变量$X_k,D(X_k)\le C$,则$\{X_n\}$服从大数定律

独立同分布大数定律

若$\{X_n\}$独立同分布,$EX_n=\mu,D(X_n)=\sigma^2 < \infty$,则$\{X_n\}$服从大数定律,即$\dfrac{1}{n}\sum_{k=1}^{n}X_k\overset{P}{\to}\mu(=EX_k)$

Bernoulli大数定律

设$\mu_n$为$n$重Bernoulli试验中事件$A$发生的次数,$p$为事件$A$在每次试验中发生的概率,则任意的$\varepsilon > 0$
$$ \lim_{n\to\infty}P(|\dfrac{\mu_n}{n}-p|\ge\varepsilon)=0 $$

中心极限定理

列维-林德伯格中心极限定理(独立同分布的中心极限定理)

设$\{X_n\}$独立同分布,$EX_n=\mu,D(X_n)=\sigma^2$都存在,则$\{X_n\}$服从中心极限定理
$$ \lim_{n\to\infty}P(\dfrac{\sum_{k=1}^nX_k-n\mu}{\sqrt{n\sigma^2}}\le x)=\dfrac{1}{\sqrt{2\pi}}\int_{-\infty}^{x}e^{-\frac{t^2}{2}}dt=\Phi(x) $$

贝努利情形的中心极限定理(拉普拉斯中心极限定理)

TODO

$\mu_n$服从二项分布,则$\mu_n$的极限分布是正态分布

第六章

统计量

定义

$\chi^2$分布

$X_1,X_2…X_n$独立同分布,均$\sim N(0,1)$,称随机变量
$$ \chi^2_n=\sum_{i=1}^nX_i^2 $$
为服从自由度为$n$的**$\chi^2$分布**,记为$\chi^2_n=\chi^2(n)$

  1. 若$\chi_1^2\sim\chi^2(n_1),\chi_2^n\sim\chi^2(n_2),$且$\chi_1^2$与$\chi_2^2$相互独立,则有$\chi_1^2+\chi_2^2\sim\chi^2(n_1+n_2)$
  2. 若$\chi^2\sim\chi^2(n)$,则$E(\chi^2)=n,D(\chi^2)=2n$

$t$分布

$X\sim N(0,1),Y\sim\chi^2(n)$且$X,Y$相互独立,称随机变量
$$ T=\dfrac{X}{\sqrt{Y/n}} $$
为服从自由度为$n$的t分布,记为$T\sim t(n)$

$F$分布

$U\sim\chi^2(n_1),V\sim\chi^2(n_2)$,且$U,V$相互独立,称随机变量
$$ F=\dfrac{U/n_1}{V/n_2} $$
为服从自由度为$(n_1,n_2)$的F分布,记为$F\sim F(n_1,n_2)$

上$\alpha$分位点

对于上$\alpha$分位点$\lambda_\alpha$,$X$服从$N(0,1),\chi^2(n),t(n),F(n_1,n_2)$时分别记为$u_\alpha,\chi^2_\alpha(n),t_\alpha(n),F_\alpha(n_1,n_2)$

$$ u_{1-\alpha}=-u_{\alpha} $$
$$ t_{1-\alpha}(n)=-t_{1-\alpha}(n) $$
$$ F_{1-\alpha}(n_1,n_2)=\dfrac{1}{F_\alpha(n_2,n_1)} $$
$$ P(\dfrac{1}{F}>\dfrac{1}{F_{1-\alpha}(n_1,n_2)})=\alpha $$

样本均值的分布

设$X_1,X_2…X_n$来自正态总体$X\sim N(\mu,\sigma^2)$的样本,则

样本方差的分布

设$X_1,X_2…X_n$是来自正态总体$N(\mu,\sigma^2)$的样本,$\bar{X},S_n^2$分别为样本均值和样本方差,则有

3

设$X_1,X_2…X_n$来自正态总体$X\sim N(\mu,\sigma^2)$的样本,则有

双正态总体样本均值差,样本方差比的分布

设$X\sim N(\mu_1,\sigma_1^2),Y\sim N(\mu_2,\sigma_2^2)$,且$X,Y$独立,$X_1,X_2…X_{n_1}$是来自$X$的样本,$Y_1,Y_2…Y_{n_2}$是来自$Y$的样本,$\bar{X},\bar{Y}$是样本均值,$S_1^2,S_2^2$是$X,Y$的修正样本方差

$$ S_1^2=\dfrac{1}{n-1}\sum_{i=1}^{n_1}(X_i-\bar{X})^2\qquad S_2^2=\dfrac{1}{n_2-1}\sum_{i=1}^{n_2}(Y_i-\bar{Y})^2 $$

则有

4

$$ \dfrac{S_1^2/S_2^2}{\sigma_1^2/\sigma_2^2}\sim F(n_1-1,n_2-1) $$

5

$$ U=\dfrac{(\bar{X}-\bar{Y})-(\mu_1-\mu_2)}{\sqrt{\dfrac{\sigma_1^2}{n_1}+\dfrac{\sigma_2^2}{n_2}}}\sim N(0,1) $$

第七章

矩估计

极大似然估计

$X\sim N(\mu,\sigma^2)$

极大似然估计的不变性

$\hat{\theta}$是$\theta$的极大似然估计,则$u(\hat{\theta})$是$u(\theta)$的极大似然估计

估计量的评价标准

区间估计

正态总体$N(\mu,\sigma^2)$中均值$\mu$的置信区间

$\sigma^2$已知

取枢轴变量
$$ U=\dfrac{\bar{X}-u}{\sigma/\sqrt{n}}\sim N(0,1) $$

由$P(|U| < u_{\alpha/2})=1-\alpha$,解得
$$ P(\bar{X}-u_{\alpha/2}\dfrac{\sigma}{\sqrt{n}} < \mu < \bar{X}+u_{\alpha/2}\dfrac{\sigma}{\sqrt{n}})=1-\alpha $$

于是$\mu$的置信度为$1-\alpha$的置信区间为
$$ (\bar{X}-u_{\alpha/2}\dfrac{\sigma}{\sqrt{n}},\bar{X}+u_{\alpha/2}\dfrac{\sigma}{\sqrt{n}}) $$

$\sigma^2$未知

$S_n^2=\dfrac{1}{n}\sum_{i=1}^n(X_i-\bar{X})^2$,$T=\dfrac{\bar{X}-\mu}{S_n/\sqrt{n-1}}\sim t(n-1)$或$T=\dfrac{\bar{X}-\mu}{S_{n-1}/\sqrt{n}}\sim t(n-1)$

正态总体$N(\mu,\sigma^2)$中方差$\sigma^2$的置信区间($\mu$未知)

$\chi^2=\dfrac{nS_n^2}{\sigma^2}\sim\chi^2(n-1)$

两个正态总体$N(\mu_1,\sigma_1^2),N(\mu_2,\sigma_2^2)$的均值差$\mu_1-\mu_2$的置信区间

$\sigma_1^2,\sigma_2^2$已知


$$ U=\dfrac{\bar{X}-\bar{Y}-(\mu_1-\mu_2)}{\sqrt{\dfrac{\sigma_1^2}{n_1}+\dfrac{\sigma_2^2}{n_2}}}\sim N(0,1) $$

由$P(|U| < u_{\alpha/2})=1-\alpha$,解得
$$ P(\bar{X}-\bar{Y}-u_{\alpha/2}\sqrt{\dfrac{\sigma_1^2}{n_1}+\dfrac{\sigma_2^2}{n_2}} < \mu_1-\mu_2 < \bar{X}-\bar{Y}+u_{\alpha/2}\sqrt{\dfrac{\sigma_1^2}{n_1}+\dfrac{\sigma_2^2}{n_2}})=1-\alpha $$

得$\mu_1-\mu_2$的置信度为$1-\alpha$的置信区间为
$$ (\bar{X}-\bar{Y}-u_{\alpha/2}\sqrt{\dfrac{\sigma_1^2}{n_1}+\dfrac{\sigma_2^2}{n_2^2}},\bar{X}-\bar{Y}+u_{\alpha/2}\sqrt{\dfrac{\sigma_1^2}{n_1}+\dfrac{\sigma_2^2}{n_2}}) $$

$\sigma_1^2=\sigma_2^2=\sigma^2$,但$\sigma^2$未知

TODO

两个正态总体$N(\mu_1.\sigma_1^2),N(\mu_2,\sigma_2^2)$的方差比$\sigma_1^2/\sigma_2^2$的置信区间($\mu_1,\mu_2$未知)


$$ F=\dfrac{S_1^2\sigma_2^2}{S_2^2\sigma_1^2}\sim F(n_1-1,n_2-1) $$

作枢轴变量.得
$$ P(F_{1-\alpha/2}(n_1-1,n_2-1) < \dfrac{S_1^2\sigma_2^2}{S_2^2\sigma_1^2} < F_{\alpha/2}(n_1-1,n_2-1))=1-\alpha $$

得到$\dfrac{\sigma_1^2}{\sigma_2^2}$的置信度为$1-\alpha$的置信区间为
$$ (\dfrac{S_1^2}{S_2^2}\dfrac{1}{F_{\alpha/2}(n_1-1,n_2-1)},\dfrac{S_1^2}{S_2^2}\dfrac{1}{F_{1-\alpha/2}(n_1-1,n_2-1)}) $$

非正态总体均值的区间估计(大样本法)

$$ \dfrac{\sum_{i=1}^nX_i-n\mu}{\sqrt{n}\sigma}\to N(0,1) $$
若$\sigma$未知,用样本标准差$S$代替,得
$$ U=\dfrac{\bar{X}-\mu}{S/\sqrt{n}}\approx N(0,1) $$
置信区间近似为$(\bar{X}-u_{\alpha/2}\sqrt{\dfrac{\bar{X}(1-\bar{X})}{n}},\bar{X}+u_{\alpha/2}\sqrt{\dfrac{\bar{X}(1-\bar{X})}{n}})$

第八章

单个正态总体$N(\mu,\sigma^2)$均值$\mu$的假设检验

$\sigma^2$已知($\mu$检验)

$\sigma^2$未知($t$检验)

两个正态总体的均值差的检验

$\sigma^2_1,\sigma^2_2$均已知

单个正态总体方差的假设检验($\chi^2$检验法)

两个正态总体的方差比的假设检验($F$检验法)