概率论知识点总结(下)

参考资料

最大似然估计例题
何书元《概率论与数理统计》

6. 描述性统计

统计学的做法分为两种:

描述性统计:
从数据样本中计算一些平均值、标准差、最小值、最大值等概括统计量, 画直方图、散点图等描述图形。
推断性统计:
假定要研究的对象服从某种概率模型, 收集数据后把数据用模型解释, 并做出有概率意义的结论。

6.1 总体与样本

总体

总体参数是描述总体特性的指标, 简称参数。
如果总体中的个体是有限个, 称个体总数 $N$ 为总体容量。
总体平均或总体均值是参数。常用 $μ$ 表示。如果知道总体的全部个体 (比如, 某小学所有一年级新生的身高) $y_{1}, y_{2}, ldots, y_{N}$ 则
$sum_{i=1}^{N} y_{i}$
总体方差是参数。常记为 $sigma^{2}$ 。如果知道总体的全部个体 $y_{1}, y_{2}, ldots, y_{N}$ 则
$sigma^{2}=frac{1}{N} sum_{i=1}^{N}left(y_{i}-muright)^{2}$
$σ$ 称为总体标准差。

样本

如果总体只有有限个样本虽然可以测量所有样本计算总体参数, 但可能会消耗过大。
有些总体有无限个个体, 比如, 对某放射性物质测量固定长度时间内放射出的粒子数, 每试验一次就有一个不同结果。
为了得到总体的信息, 可以从总体中抽取一个有代表性的个体的集合, 称为总体的一个样本。也叫观测数据。样本中个体的个数叫做样本量 (sample size)。
试图用样本的情况去判断总体的情况。注意, “有代表性” 是一个不容忽视的要求。
从总体中抽取样本的工作叫做抽样 (sampling)。
设一个样本为 $x_{1}, x_{2}, ldots, x_{n}$ , 可计算
样本均值
$sum_{i=1}^{n} x_{i}$
样本方差
$s^{2}=frac{1}{n-1} sum_{i=1}^{n}left(x_{i}-bar{x}right)^{2} .$
$s=sqrt{s^{2}}$ 称为样本标准差。

6.2 抽样调查方法

随机抽样

如果总体中的每个个体都有相同的机会被抽中, 就称这样的抽样方法为随机抽样方法。
简单地分, 抽样分为有放回抽取和无放回抽取。
无放回随机抽样指在总体中随机抽出一个个体后, 下次在余下的个体中再进行随机抽样.
有放回随机抽样指抽出一个个体, 记录下抽到的结果后放回, 摇匀后再进行下一次随机抽样.
无放回抽取从实现上和从精度上更好, 总体容量 $N$ 很大时两者差异很小。
提高样本量可以提高估计精度, 但不是总体越大, 考虑的特征越多, 样本量也需要随之增大。
不论是有放回还是无放回，随机抽样是无偏的

分层抽样方法

把总体 $A$ 分成 $L$ 个互不相交子总体:
$A=A_{1}+A_{2}+cdots+A_{L} .$
称这些子总体为层 (strata), 称 $A_{i}$ 为第 $i$ 层. 然后在每层中独立地进行随机抽样.
用 $N$ 表示总体 $A$ 的个体总数, 用 $N_{i}$ 表示第 $i$ 层的个体总数时, 有
$N=N_{1}+N_{2}+cdots+N_{L} .$
我们称
$w_{i}=frac{N_{i}}{N},(i=1,2, cdots, L)$
为第 $i$ 层的层权 (weight).
用 $μ$ 表示 $A$ 的总体均值.
对 $i = 1, 2, \dots, L$ , 用 $n_{i}$ 表示从第 $i$ 层抽出样本的个数, $bar{x}_{i}$ 表示从第 $i$ 层抽出样本的样本均值. 称
$bar{x}_{s t}=w_{1} bar{x}_{1}+w_{2} bar{x}_{2}+cdots+w_{L} bar{x}_{L}$
是总体均值 $μ$ 的简单估计.
称
$Vleft(bar{x}_{s t}right) equiv w_{1}^{2} operatorname{Var}left(bar{x}_{1}right)+w_{2}^{2} operatorname{Var}left(bar{x}_{2}right)+cdots+w_{L}^{2} operatorname{Var}left(bar{x}_{L}right)$
是简单估计 $bar{x}_{s t}$ 的抽样方差.
抽样方差 $Vleft(bar{x}_{s t}right)$ 是评价简单估计 $bar{x}_{s t}$ 的估计精度的指标. $Vleft(bar{x}_{s t}right)$ 越小, 说明 $bar{x}_{s t}$ 越好.
当各层内总体方差相近时, 各层样本量 $n_{i}$ 应该正比于各层总体容量 $N_{i}$

7. 参数估计

如果 $X_{1}, X_{2}, cdots, X_{n}$ 独立同分布, 和 $X$ 同分布, 就称 $X$ 是总体, 称 $X_{1}, X_{2}, cdots, X_{n}$ 是总体 $X$ 的简单随机样本, 称观测数据的个数 $n$ 为样本量.

7.1 点估计和矩估计

估计量 (统计量)

设 $X_{1}, X_{2}, cdots, X_{n}$ 是总体 $X$ 的简单随机样本, $θ$ 是总体 $X$ 的末知参数. 如果 $gleft(x_{1}, x_{2}, cdots, x_{n}right)$ 是已知函数, 就称
$hat{theta}=gleft(X_{1}, X_{2}, cdots, X_{n}right)$
是 $θ$ 的估计量, 简称为估计 (estimator). 换句话说, 估计或估计量是从观测数据 $X_{1}, X_{2}, cdots, X_{n}$ 能够直接计算的量. 计算后得到的值称为估计值. 估计量也称为统计量 (statistic).
设 $θ ^ hat{theta}$ 是总体参数 $θ$ 的估计, 作为随机变量 $X_{1}, X_{2}, cdots, X_{n}$ 的函数, 估计量 $θ ^ hat{theta}$ 也是随机变量. 估计量是样本的函数.

无偏估计,相合估计

设 $θ ^ hat{theta}$ 是 $θ$ 的估计.
- 如果 $E θ ^ = θ mathrm{E} hat{theta}=theta$ , 称 $θ ^ hat{theta}$ 是 $θ$ 的无偏估计;
- 如果当样本量 $n → ∞ , θ ^ n rightarrow infty, hat{theta}$ 依概率收敛到 $θ$ , 就称 $θ ^ hat{theta}$ 是 $θ$ 的相合估计 (consistent estimator);
- 如果当样本量 $n → ∞ , θ ^ n rightarrow infty, hat{theta}$ 以概率 1 收敛到 $θ$ , 就称 $θ ^ hat{theta}$ 是 $θ$ 的强相合估计 (strongly consistent estimator).
由于以概率 1 收玫可以推出依概率收玫, 所以强相合估计一定是相合估计.

均值的估计

设总体均值 $μ = E X$ 存在, $X_{1}, X_{2}, cdots, X_{n}$ 是总体 $X$ 的简单随机样本.
均值 $μ$ 的估计定义为
$bar{X}_{n}=frac{1}{n} sum_{i=1}^{n} X_{i}$
由于 $bar{X}_{n}$ 是从样本计算出来的, 所以是样本均值.
样本均值 $bar{X}_{n}$ 有如下的性质.
(1) $bar{X}_{n}$ 是 $μ$ 的无偏估计. 这是因为 $bar{X}_{n}=mu$ .
(2) $bar{X}_{n}$ 是 $μ$ 的强相合估计, 从而是相合估计. 这是因为从强大数律得到
$_{n rightarrow infty} bar{X}_{n}=mu, mathrm{wp} 1 .$

方差的估计

总体方差 $sigma^{2}=operatorname{Var}(X)$ 的点估计由
$S^{2}=frac{1}{n-1} sum_{j=1}^{n}left(X_{j}-hat{mu}right)^{2}$
定义. 由于 $S^{2}$ 是从样本计算出来的, 所以是样本方差.
定义 $Y_{j}=X_{j}-mu$ , 有
$&bar{Y}_{n}=frac{1}{n} sum_{j=1}^{n} Y_{j}=hat{mu}-mu, \ &Y_{j}-bar{Y}_{n}=X_{j}-hat{mu}, \ &mathrm{E} bar{Y}_{n}^{2}=frac{sigma^{2}}{n} . end{aligned}$
于是得到
$S^{2} &=frac{1}{n-1} sum_{j=1}^{n}left(X_{j}-bar{X}_{n}right)^{2}=frac{1}{n-1} sum_{j=1}^{n}left(Y_{j}-bar{Y}_{n}right)^{2} \ &=frac{1}{n-1} sum_{j=1}^{n}left(Y_{j}^{2}-2 Y_{j} bar{Y}_{n}+bar{Y}_{n}^{2}right) \ &=frac{1}{n-1}left[sum_{j=1}^{n} Y_{j}^{2}-2 n bar{Y}_{n} bar{Y}_{n}+n bar{Y}_{n}^{2}right] \ &=frac{1}{n-1}left[sum_{j=1}^{n} Y_{j}^{2}-n bar{Y}_{n}^{2}right] end{aligned}$
从而有
$S^{2}=frac{1}{n-1}left[sum_{j=1}^{n} mathrm{E} Y_{j}^{2}-n mathrm{E} bar{Y}_{n}^{2}right]=frac{1}{n-1}left(n sigma^{2}-sigma^{2}right)=sigma^{2} .$
说明 $S^{2}$ 是 $sigma^{2}$ 的无偏估计.

样本均值、方差、标准差的理论结果

设 $X_{1}, X_{2}, cdots, X_{n}$ 是总体 $X$ 的简单随机样本, $μ = E X$ , $sigma^{2}=operatorname{Var}(X)$
- 样本均值 $bar{X}_{n}$ 是总体均值 $μ$ 的强相合无偏估计,
- 样本方差 $S^{2}$ 是总体方差 $sigma^{2}$ 的强相合无偏估计,
- 样本标准差 $S$ 是总体标准差 $σ$ 的强相合估计.

点估计

设 $X_{1}, X_{2}, cdots, X_{n}$ 是总体 $X$ 的简单随机样本, 则 $X_{1}^{j}, X_{2}^{j}, cdots, X_{n}^{j}$ 是总体 $X^{j}$ 的简单随机样本, 所以当原点矩 $nu_{j}=mathrm{E} X^{j}$ 存在时,
$hat{nu}_{j}=frac{1}{n} sum_{i=1}^{n} X_{i}^{j}$
是 $nu_{j}$ 的点估计.
$hat{nu}_{j}$ 具有无偏性和强相合性.
最后指出, 在实际数据的计算中, 也常用 $bar{x}_{n}, s^{2}$ 和 $s$ 分别表示样本均值, 样本方差和样本标准差:
$bar{x}_{n}=frac{1}{n} sum_{j=1}^{n} x_{j}, s^{2}=frac{1}{n-1} sum_{j=1}^{n}left(x_{j}-bar{x}_{n}right)^{2}, s=sqrt{s^{2}} .$

矩估计

设 $X_{1}, X_{2}, cdots, X_{n}$ 是总体 $X$ 的简单随机样本, 已知 $X$ 有分布函数
$theta_{1}, theta_{2}, cdots, theta_{m}right) .$
其中的 $theta_{1}, theta_{2}, cdots, theta_{m}$ 是末知参数.
如果能得到表达式
$theta_{1}=g_{1}left(nu_{1}, nu_{2}, cdots, nu_{m}right) \ theta_{2}=g_{2}left(nu_{1}, nu_{2}, cdots, nu_{m}right) \ cdots cdots cdots cdots cdots cdots, \ theta_{m}=g_{m}left(nu_{1}, nu_{2}, cdots, nu_{m}right) end{array}right.$
其中
$nu_{j}=mathrm{E} X^{j}, j=1,2, cdots, m,$
就称由
$hat{theta}_{1}=g_{1}left(hat{nu}_{1}, hat{nu}_{2}, cdots, hat{nu}_{m}right), \ hat{theta}_{2}=g_{2}left(hat{nu}_{1}, hat{nu}_{2}, cdots, hat{nu}_{m}right), \ left.cdots cdots cdots cdots cdots, hat{nu}_{m}right) \ hat{theta}_{m}=g_{m}left(hat{nu}_{1}, hat{nu}_{2}, cdots,right. end{array}right.$
定义的 $hat{theta}_{1}, hat{theta}_{2}, cdots, hat{theta}_{m}$ 分别是 $theta_{1}, theta_{2}, cdots, theta_{m}$ 的矩估计 (moment estimator). 这里的 $hat{nu}_{j}$ 是 $nu_{j}$ 的点估计, 由 (1.7) 定义.
由于总体分布 (1.9) 中含有末知参数, 所以 $nu_{j}$ 是参数 $theta_{1}, theta_{2}, cdots, theta_{m}$ 的函数, 而方程 $(1.10)$ 通常是由下面的估计方程
$nu_{1}=h_{1}left(theta_{1}, theta_{2}, cdots, theta_{m}right), \ nu_{2}=h_{2}left(theta_{1}, theta_{2}, cdots, theta_{m}right), \ cdots cdots cdots cdots cdots, \ nu_{m}=h_{m}left(theta_{1}, theta_{2}, cdots, theta_{m}right) end{array}right.$
得到的. 注意这里的 $nu_{j}=mathrm{E} X^{j}$ .

例题：正态分布参数的矩估计

设 $X$ 服从正态分布 $sigma^{2}right)$ .
由于
$sigma^{2}=mathrm{E} X^{2}-(mathrm{E} X)^{2}=nu_{2}-nu_{1}^{2},$
所以 $sigma^{2}$ 的矩估计分别是
$&=bar{X}_{n}, \ hat{sigma}^{2} &=hat{nu}_{2}-left(hat{nu}_{1}right)^{2} \ &=frac{1}{n} sum_{j=1}^{n} X_{j}^{2}-left(bar{X}_{n}right)^{2} \ &=frac{1}{n} sum_{j=1}^{n}left(X_{j}-hat{mu}right)^{2} . end{aligned}$

7.2 最大似然估计

最大似然估计定义 (离散情况)

设离散随机变量 $X_{1}, X_{2}, cdots, X_{n}$ 有联合分布
$pleft(x_{1}, x_{2}, cdots, x_{n} ; thetaright)=Pleft(X_{1}=x_{1}, X_{2}=x_{2}, cdots, X_{n}=x_{n}right),$
其中 $θ$ 是末知参数, 给定观测数据 $x_{1}, x_{2}, cdots, x_{n}$ 后, 我们称 $θ$ 的函数
$L(theta)=pleft(x_{1}, x_{2}, cdots, x_{n} ; thetaright)$
为基于 $x_{1}, x_{2}, cdots, x_{n}$ 的似然函数, 称 $L (θ)$ 的最大值点 $θ ^ hat{theta}$ 为 $θ$ 的最大似然估计 (maximum likelihood estimator).
$θ$ 也可以是向量 $boldsymbol{theta}=left(theta_{1}, theta_{2}, cdots, theta_{m}right)$ .

最大似然估计 (连续型)

设随机向量 $boldsymbol{X}=left(X_{1}, X_{2}, cdots, X_{n}right)$ 有联合密度 $f (x; θ)$ , 其中 $θ$ 是末知参数. 得到 $X$ 的观测值 $x$ 后, 称 $θ$ 的函数
$L (θ) = f (x; θ)$
为基于 $x$ 的似然函数. 称似然函数 $L (θ)$ 的最大值点 $θ ^ hat{boldsymbol{theta}}$ 为参数 $θ$ 的最大似然估计.
最大似然估计通常被缩写成 MLE(Maximum Likelihood Estimator).
设总体 $X$ 有密度函数 $X_{1}, X_{2}, cdots, X_{n}$ 是总体 $X$ 的简单随机样本, 则 $left(X_{1}, X_{2}, cdots, X_{n}right)$ 的联合密度是
$fleft(x_{1}, x_{2}, cdots, x_{n} ; boldsymbol{theta}right)=prod_{j=1}^{n} fleft(x_{j} ; boldsymbol{theta}right),$
基于观测值 $boldsymbol{x}=left(x_{1}, x_{2}, cdots, x_{n}right)$ 的似然函数是
$L(boldsymbol{theta})=prod_{j=1}^{n} fleft(x_{j} ; boldsymbol{theta}right) .$
由于
$l (θ) = ln L (θ)$
和似然函数有相同的最大值点, 所以称上式为对数似然函数. 实际问题中, 求对数似然函数 $l (θ)$ 的最大值点往往要方便得多.

参数估计还有区间估计、置信区间等相关知识点，由于本人在实际工程上用得不多，所以这一块不总结了。

例题

7. 马尔可夫链

该部分来自知乎：https://zhuanlan.zhihu.com/p/418319247