2019-03-09
第一章
定理1.1 全概率公式
deleted
定理1.2 贝叶斯公式
deleted
定理1.6 泊松定理
设$n$为正整数,$\lambda=np_n$为常数,则对任意正整数$k$有
$$ \lim_{n\to\infty}C_n^kp_n^k(1-p_n)^{n-k}=\dfrac{\lambda^k}{k!}e^{-\lambda} $$
第二章
分布函数$F(x)$的基本性质
- $F(x_2)\ge F(x_1)$
- $F(-\infty)=0,F(+\infty)=1$
- 右连续
常见离散型随机变量
- 0-1分布
如果随机试验$E$只有两个结果:$A$与$\bar{A}$,则称$E$为贝努利试验
- 二项分布
设$n$重贝努利试验中$A$发生的次数为$X$,则$X$服从二项分布
- 泊松分布,$X\sim P(\lambda)$
$$p_k=P(X=k)=\dfrac{\lambda^k}{k!}e^{-\lambda},k=0,1,2…$$
其中$\lambda > 0$为常数
若随机变量$X\sim B(n,p)$,则当$n$充分大,$p$充分小时,令$\lambda=np$,则有
$$ P(X=k)=C^k_np^k(1-p)^{n-k}\approx\dfrac{\lambda^k}{k!}e^{-\lambda} $$
- 几何分布,$g(p)$
$$p_k=P(X=k)=(1-p)^{k-1}p,k=1,2…$$
在贝努利试验中$P(A)=p,P(\bar{A})=1-p$,试验进行到$A$首次出现为止
令$X$表示所需试验次数,则$X$服从参数为$p$的几何分布
无记忆性:$P(X=s+t|X > t) = P(X=s)$
- 超几何分布
一批产品有$N$件,其中$M$件次品,其余为正品
令$X$为取出$n$件产品中的次品数,$X$服从超几何分布
(连续型随机变量)密度函数$p(x)$的基本性质
- $p(x)\ge0$
- $\int_{-\infty}^{+\infty}p(x)dx=1$
常见连续型随机变量
均匀分布,$U[a,b]$
指数分布,$X\sim E(\lambda)$
$$p(x)=\begin{cases}
\lambda e^{-\lambda x}&x\ge0\\
0&x < 0
\end{cases}$$
其中$\lambda > 0$为常数
$X$的分布函数为
$$
F(x)=\begin{cases}
1-e^{-\lambda x}&x\ge0\\
0&x < 0
\end{cases}
$$
无记忆性:$P(X > s + t|X > s)=P(X > t)$
- 正态分布,记为$X\sim N(\mu,\sigma^2)$
$$p(x)=\dfrac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}},-\infty < x < \infty$$
正态分布随机变量的线性函数仍然服从正态分布:$X\sim N(\mu,\sigma^2)$,则$Y=aX+b\sim N(a\mu+b,(a\sigma)^2)$
随机变量函数的分布
$$ F_Y(y)=P(Y\le y)=P(g(X)\le y)=\int_{x:g(x)\le y}p_X(x)dx $$
第三章
二维分布函数性质
$F(x,y)$分别对每个变量单调不减
- $\forall y,x_2 > x_1,F(x_2,y) > F(x_1,y)$
- $\forall x,y_2 > y_1,F(x,y_2) > F(x,y_1)$
$0\le F(x,y)\le1$,且
- $\forall y,F(-\infty,y)=0$
- $\forall x,F(x,-\infty)=0$
- $F(-\infty,-\infty)=0$
- $F(+\infty,+\infty)=1$
$F(x,y)$关于每个变量右连续
$$F(x,y)=F(x+0,y),F(x,y)=F(x,y+0)$$$F(x_2,y_2)-F(x_2,y_1)-F(x_1,y_2)+F(x_1,y_1)\ge0,(x_2\ge x_1,y_2\ge y_1)$
边缘分布函数$F_X(x),F_Y(y)$
联合密度函数性质
- $p(x,y)\ge0$
- $\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}p(x,y)dxdy=1$
- 若$p(x,y)$在点$p(x,y)$连续,则$\dfrac{\partial^2F(x,y)}{\partial x\partial y}=p(x,y)$
- 点$(X,Y)$落在$G$内的概率:$P((X,Y)\in G)=\iint_Gp(x,y)dxdy$
边缘密度$p_X(x),p_Y(y)$
二维随机变量函数的分布
泊松分布的可加性
$X,Y$独立,分别服从参数为$\lambda_1,\lambda_2$的泊松分布,则$Z=X+Y$服从参数为$\lambda_1+\lambda_2$的泊松分布
如果随机变量$X$与$Y$相互独立,且$X\sim N(\mu_1,\sigma_1^2),Y\sim N(\mu_2,\sigma_2^2)$
随机变量和的分布
- 分布函数法
- 卷积公式法
独立正态随机变量线性函数的分布
- $Z=X+Y\sim N(\mu_1+\mu_2,\sigma_1^2+\sigma_2^2)$
- $Z=aX+bY\sim N(a\mu_1+b\mu_2,a^2\sigma_1^2+b^2\sigma_2^2)$
推广:如果$X_1,X_2…X_n$相互独立,$X_i\sim N(\mu_i,\sigma_i^2)$
$$Z=a_1X_1+a_2X_2+…+a_nX_n\sim N(\sum_{i=1}^ba_i\mu_i,\sum_{i=1}^na_i^2\sigma_i^2)$$
极大极小分布
$F_M(z)=P(\max{X,Y}\le z)=P(X\le z,Y\le z)$
$F_N(z)=P(\min{X,Y}\le z)=1-P(\min(X,Y)\ge z)=1-P(X > z,Y > z)$
当$X_1,X_2,…,X_n$相互独立且同分布
$F_M(z)=[F(z)]^n$
$F_N(z)=1-[1-F(z)]^n$
第四章
方差
$D(X)=E(X-EX)^2=EX^2-(EX)^2$
当$X,Y$独立,$D(X\pm Y)=D(X)\pm D(Y)$
切比雪夫不等式:对任意$\varepsilon > 0$
$$P(|X-E(X)|\ge\varepsilon)\le\dfrac{D(X)}{\varepsilon^2}$$
常见分布的期望与方差
记号 | 分布 | 参数 | 数学期望 | 方差 |
---|---|---|---|---|
0-1分布 | $0 < p < 1$ | $p$ | $p(1-p)$ | |
几何分布 | $0 < p < 1$ | $1/p$ | $\dfrac{1-p}{p^2}$ | |
$B(n,p)$ | 二项分布 | $n\ge1,0 < p < 1$ | $np$ | $np(1-p)$ |
$P(\lambda)$ | 泊松分布 | $\lambda > 0$ | $\lambda$ | $\lambda$ |
$U(a,b)$ | 均匀分布 | $a < b$ | $(a + b)/2$ | $(b-a)^2/12$ |
$E(\lambda)$ | 指数分布 | $\lambda > 0$ | $1/\lambda$ | $1/\lambda^2$ |
$N(\mu,\sigma^2)$ | 正态分布 | $\mu\in R,\sigma > 0$ | $\mu$ | $\sigma^2$ |
$\chi^2(n)$ | $\chi^2$分布 | $n$ | $n$ | $2n$ |
矩
$X$的$k$阶中心矩:$E(X-EX)^k$
$X$的$k$阶原点矩:$X\sim N(0,1),EX^k=
\begin{cases}
0 & k\text{为奇数}\\
(k-1)!!\quad & k\text{为偶数}\\
\end{cases}$
协方差,cov$(X,Y)$
$$ \text{cov}(X,Y)=E[(X-EX)(Y-EY)]=E(XY)-E(X)E(Y) $$
$$ D(X\pm Y)=D(X)+D(Y)\pm2\text{cov}(X,Y) $$
其他性质
相关系数,$\rho_{XY}$或corr$(X,Y)$
$$ \dfrac{\text{cov}(X,Y)}{\sqrt{D(X)D(Y)}} $$
- $X,Y$不相关的等价条件
- $\rho(XY)=0$
- $cov(X,Y)=0$
- $E(XY)=E(X)E(Y)$
- $D(X\pm Y)=D(X)\pm D(Y)$
第五章
大数定律
对任意$\varepsilon > 0$,有
$$ \lim_{n\to\infty}\{|\dfrac{1}{n}\sum_{k=1}^nX_k-\dfrac{1}{n}\sum_{k=1}^nEX_k| < \varepsilon\}=1 $$
或
$$ \lim_{n\to\infty}\{|\dfrac{1}{n}\sum_{k=1}^nX_k-\dfrac{1}{n}\sum_{k=1}^nEX_k|\ge\varepsilon\}=0 $$
则称$\{X_n\}$服从大数定律,(随机变量的平均值依概率收敛于他们数学期望的平均值)
马尔科夫大数定律
设随机变量$\{X_n\}$满足$\dfrac{1}{n^2}D(\sum_{k=1}^nX_k)\to0(n\to\infty)$,则$\{X_n\}$服从大数定律
切比雪夫大数定律
设$\{X_n\}$为两两互不相关的随机变量序列,又存在常数$C > 0$,使得对每个随机变量$X_k,D(X_k)\le C$,则$\{X_n\}$服从大数定律
独立同分布大数定律
若$\{X_n\}$独立同分布,$EX_n=\mu,D(X_n)=\sigma^2 < \infty$,则$\{X_n\}$服从大数定律,即$\dfrac{1}{n}\sum_{k=1}^{n}X_k\overset{P}{\to}\mu(=EX_k)$
Bernoulli大数定律
设$\mu_n$为$n$重Bernoulli试验中事件$A$发生的次数,$p$为事件$A$在每次试验中发生的概率,则任意的$\varepsilon > 0$
$$ \lim_{n\to\infty}P(|\dfrac{\mu_n}{n}-p|\ge\varepsilon)=0 $$
中心极限定理
列维-林德伯格中心极限定理(独立同分布的中心极限定理)
设$\{X_n\}$独立同分布,$EX_n=\mu,D(X_n)=\sigma^2$都存在,则$\{X_n\}$服从中心极限定理
$$ \lim_{n\to\infty}P(\dfrac{\sum_{k=1}^nX_k-n\mu}{\sqrt{n\sigma^2}}\le x)=\dfrac{1}{\sqrt{2\pi}}\int_{-\infty}^{x}e^{-\frac{t^2}{2}}dt=\Phi(x) $$
贝努利情形的中心极限定理(拉普拉斯中心极限定理)
TODO
$\mu_n$服从二项分布,则$\mu_n$的极限分布是正态分布
第六章
统计量
定义
- 样本均值
$$ \bar{X}=\dfrac{1}{n}\sum_{i=1}^nX_i $$ - 样本方差
$$ S_n^2=\dfrac{1}{n}\sum_{i=1}^n(X_i-\bar{X})^2=\dfrac{1}{n}\sum_{i=1}^nX_i^2-\bar{X}^2 $$ - (修正的)样本方差
$$ S_{n-1}^2=\dfrac{1}{n-1}\sum_{i=1}^n(X_i-\bar{X})^2 $$- 与样本方差的关系
$$ \dfrac{S_n}{\sqrt{n-1}}=\dfrac{S_{n-1}}{\sqrt{n}} $$
- 与样本方差的关系
- 样本$k$阶(原点)矩
- 样本$k$阶中心矩
$\chi^2$分布
$X_1,X_2…X_n$独立同分布,均$\sim N(0,1)$,称随机变量
$$ \chi^2_n=\sum_{i=1}^nX_i^2 $$
为服从自由度为$n$的**$\chi^2$分布**,记为$\chi^2_n=\chi^2(n)$
- 若$\chi_1^2\sim\chi^2(n_1),\chi_2^n\sim\chi^2(n_2),$且$\chi_1^2$与$\chi_2^2$相互独立,则有$\chi_1^2+\chi_2^2\sim\chi^2(n_1+n_2)$
- 若$\chi^2\sim\chi^2(n)$,则$E(\chi^2)=n,D(\chi^2)=2n$
$t$分布
$X\sim N(0,1),Y\sim\chi^2(n)$且$X,Y$相互独立,称随机变量
$$ T=\dfrac{X}{\sqrt{Y/n}} $$
为服从自由度为$n$的t分布,记为$T\sim t(n)$
$F$分布
$U\sim\chi^2(n_1),V\sim\chi^2(n_2)$,且$U,V$相互独立,称随机变量
$$ F=\dfrac{U/n_1}{V/n_2} $$
为服从自由度为$(n_1,n_2)$的F分布,记为$F\sim F(n_1,n_2)$
- 若$F\sim F(n_1,n_2)$,则$\dfrac{1}{F}\sim F(n_2,n_1)$
上$\alpha$分位点
对于上$\alpha$分位点$\lambda_\alpha$,$X$服从$N(0,1),\chi^2(n),t(n),F(n_1,n_2)$时分别记为$u_\alpha,\chi^2_\alpha(n),t_\alpha(n),F_\alpha(n_1,n_2)$
$$ u_{1-\alpha}=-u_{\alpha} $$
$$ t_{1-\alpha}(n)=-t_{1-\alpha}(n) $$
$$ F_{1-\alpha}(n_1,n_2)=\dfrac{1}{F_\alpha(n_2,n_1)} $$
$$ P(\dfrac{1}{F}>\dfrac{1}{F_{1-\alpha}(n_1,n_2)})=\alpha $$
样本均值的分布
设$X_1,X_2…X_n$来自正态总体$X\sim N(\mu,\sigma^2)$的样本,则
- $\dfrac{\bar{X}-\mu}{\sigma/\sqrt{n}}\sim N(0,1)$($\bar{X}\sim N(\mu,\dfrac{\sigma^2}{n})$)
样本方差的分布
设$X_1,X_2…X_n$是来自正态总体$N(\mu,\sigma^2)$的样本,$\bar{X},S_n^2$分别为样本均值和样本方差,则有
- $\dfrac{nS_n^2}{\sigma^2}\sim\chi^2(n-1)$或$\dfrac{(n-1)S^2_{n-1}}{\sigma^2}\sim\chi^2(n-1)$($\dfrac{1}{\sigma^2}\sum_1^n(\dfrac{X_i-\bar{X}}{\sigma})^2=\sum_1^n(\dfrac{X_i-\bar{X}}{\sigma})^2\sim\chi^2(n-1)$)
- $\bar{X}$与$S_n^2$独立
3
设$X_1,X_2…X_n$来自正态总体$X\sim N(\mu,\sigma^2)$的样本,则有
- $\dfrac{\bar{X}-\mu}{S_n/\sqrt{n-1}}\sim t(n-1)$或$\dfrac{\bar{X}-\mu}{S_{n-1}/\sqrt{n}}\sim t(n-1)$
双正态总体样本均值差,样本方差比的分布
设$X\sim N(\mu_1,\sigma_1^2),Y\sim N(\mu_2,\sigma_2^2)$,且$X,Y$独立,$X_1,X_2…X_{n_1}$是来自$X$的样本,$Y_1,Y_2…Y_{n_2}$是来自$Y$的样本,$\bar{X},\bar{Y}$是样本均值,$S_1^2,S_2^2$是$X,Y$的修正样本方差
$$ S_1^2=\dfrac{1}{n-1}\sum_{i=1}^{n_1}(X_i-\bar{X})^2\qquad S_2^2=\dfrac{1}{n_2-1}\sum_{i=1}^{n_2}(Y_i-\bar{Y})^2 $$
则有
4
$$ \dfrac{S_1^2/S_2^2}{\sigma_1^2/\sigma_2^2}\sim F(n_1-1,n_2-1) $$
5
$$ U=\dfrac{(\bar{X}-\bar{Y})-(\mu_1-\mu_2)}{\sqrt{\dfrac{\sigma_1^2}{n_1}+\dfrac{\sigma_2^2}{n_2}}}\sim N(0,1) $$
第七章
矩估计
极大似然估计
$X\sim N(\mu,\sigma^2)$
极大似然估计的不变性
$\hat{\theta}$是$\theta$的极大似然估计,则$u(\hat{\theta})$是$u(\theta)$的极大似然估计
估计量的评价标准
区间估计
正态总体$N(\mu,\sigma^2)$中均值$\mu$的置信区间
$\sigma^2$已知
取枢轴变量
$$ U=\dfrac{\bar{X}-u}{\sigma/\sqrt{n}}\sim N(0,1) $$
由$P(|U| < u_{\alpha/2})=1-\alpha$,解得
$$ P(\bar{X}-u_{\alpha/2}\dfrac{\sigma}{\sqrt{n}} < \mu < \bar{X}+u_{\alpha/2}\dfrac{\sigma}{\sqrt{n}})=1-\alpha $$
于是$\mu$的置信度为$1-\alpha$的置信区间为
$$ (\bar{X}-u_{\alpha/2}\dfrac{\sigma}{\sqrt{n}},\bar{X}+u_{\alpha/2}\dfrac{\sigma}{\sqrt{n}}) $$
$\sigma^2$未知
$S_n^2=\dfrac{1}{n}\sum_{i=1}^n(X_i-\bar{X})^2$,$T=\dfrac{\bar{X}-\mu}{S_n/\sqrt{n-1}}\sim t(n-1)$或$T=\dfrac{\bar{X}-\mu}{S_{n-1}/\sqrt{n}}\sim t(n-1)$
正态总体$N(\mu,\sigma^2)$中方差$\sigma^2$的置信区间($\mu$未知)
$\chi^2=\dfrac{nS_n^2}{\sigma^2}\sim\chi^2(n-1)$
两个正态总体$N(\mu_1,\sigma_1^2),N(\mu_2,\sigma_2^2)$的均值差$\mu_1-\mu_2$的置信区间
$\sigma_1^2,\sigma_2^2$已知
取
$$ U=\dfrac{\bar{X}-\bar{Y}-(\mu_1-\mu_2)}{\sqrt{\dfrac{\sigma_1^2}{n_1}+\dfrac{\sigma_2^2}{n_2}}}\sim N(0,1) $$
由$P(|U| < u_{\alpha/2})=1-\alpha$,解得
$$ P(\bar{X}-\bar{Y}-u_{\alpha/2}\sqrt{\dfrac{\sigma_1^2}{n_1}+\dfrac{\sigma_2^2}{n_2}} < \mu_1-\mu_2 < \bar{X}-\bar{Y}+u_{\alpha/2}\sqrt{\dfrac{\sigma_1^2}{n_1}+\dfrac{\sigma_2^2}{n_2}})=1-\alpha $$
得$\mu_1-\mu_2$的置信度为$1-\alpha$的置信区间为
$$ (\bar{X}-\bar{Y}-u_{\alpha/2}\sqrt{\dfrac{\sigma_1^2}{n_1}+\dfrac{\sigma_2^2}{n_2^2}},\bar{X}-\bar{Y}+u_{\alpha/2}\sqrt{\dfrac{\sigma_1^2}{n_1}+\dfrac{\sigma_2^2}{n_2}}) $$
$\sigma_1^2=\sigma_2^2=\sigma^2$,但$\sigma^2$未知
TODO
两个正态总体$N(\mu_1.\sigma_1^2),N(\mu_2,\sigma_2^2)$的方差比$\sigma_1^2/\sigma_2^2$的置信区间($\mu_1,\mu_2$未知)
取
$$ F=\dfrac{S_1^2\sigma_2^2}{S_2^2\sigma_1^2}\sim F(n_1-1,n_2-1) $$
作枢轴变量.得
$$ P(F_{1-\alpha/2}(n_1-1,n_2-1) < \dfrac{S_1^2\sigma_2^2}{S_2^2\sigma_1^2} < F_{\alpha/2}(n_1-1,n_2-1))=1-\alpha $$
得到$\dfrac{\sigma_1^2}{\sigma_2^2}$的置信度为$1-\alpha$的置信区间为
$$ (\dfrac{S_1^2}{S_2^2}\dfrac{1}{F_{\alpha/2}(n_1-1,n_2-1)},\dfrac{S_1^2}{S_2^2}\dfrac{1}{F_{1-\alpha/2}(n_1-1,n_2-1)}) $$
非正态总体均值的区间估计(大样本法)
$$ \dfrac{\sum_{i=1}^nX_i-n\mu}{\sqrt{n}\sigma}\to N(0,1) $$
若$\sigma$未知,用样本标准差$S$代替,得
$$ U=\dfrac{\bar{X}-\mu}{S/\sqrt{n}}\approx N(0,1) $$
置信区间近似为$(\bar{X}-u_{\alpha/2}\sqrt{\dfrac{\bar{X}(1-\bar{X})}{n}},\bar{X}+u_{\alpha/2}\sqrt{\dfrac{\bar{X}(1-\bar{X})}{n}})$