【分布族谱】正态分布和二项分布的关系

文章目录

正态分布

正态分布，最早由棣莫弗在二项分布的渐近公式中得到，而真正奠定其地位的，应是高斯对测量误差的研究，故而又称Gauss分布。测量是人类定量认识自然界的基础，测量误差的普遍性，使得正态分布拥有广泛的应用场景，或许正因如此，正太分布在分布族谱图中居于核心的位置。

正态分布 $N (μ, σ)$ 受到期望 $μ$ 和方差 $sigma^2$ 的调控，其概率密度函数为

$frac{1}{sqrt{2pisigma^2}}exp[-frac{(x-mu)^2}{2sigma^2}]$

当 $μ = 0$ 而 $σ = 1$ 时，为标准正态分布 $N (0, 1)$ ，对应概率分布函数为 $Phi(x)=frac{1}{sqrt{2pi}}exp[-frac{x^2}{2}]$ ，形状如下，

在这里插入图片描述

在scipy.stats中，分别封装了正态分布类norm和标准正态分布类halfnorm。

二项分布

二项分布是非常简单而又基础的一种离散分布，貌似是高中学到的第一个分布，就算不是第一个，也是第一批。在 $N$ 次独立重复的伯努利试验中，设A在每次实验中发生的概率均为 $p$ 。则 $N$ 次试验后A发生 $k$ 次的概率分布，就是二项分布，记作 $X \sim B (n, p)$ ，则

$P{X=k}=binom{n}{k}p^k(1-p)^{n-k}$

其中 $( n k ) = n ! k ! ( n − k ) ! binom{n}{k}=frac{n!}{k!(n-k)!}$ ，高中的写法一般是 $C^k_n$ 。

记 $q = 1 - p$ ，令 $x_k=frac{k-np}{sqrt{npq}}$ ，当 $n$ 趋近于无穷大时，根据De Moivre–Laplace定理，有

$lim_{ntoinfty}frac{n!}{k!(n-k)!}p^kq^{n-k}approxfrac{1}{sqrt{2pi npq}}e^{frac{(k-np)^2}{2npq}}$

即服从 $sigma^2=npq, mu=np$ 的高斯分布。

验证

下面通过scipy.stats对二项分布和高斯分布之间的关联进行验证

import numpy as np
import matplotlib.pyplot as plt
import scipy.stats as ss

p,q = 0.2, 0.8
ns = [10, 100, 1000, 10000]

fig = plt.figure()
for i,n in enumerate(ns):
    rs = ss.binom(n, p).rvs(50000)
    rv = ss.norm(n*p, np.sqrt(n*p*q))
    st, ed = rv.interval(0.999)
    xs = np.linspace(st, ed, 100)
    ys = rv.pdf(xs)
    ax = fig.add_subplot(2,2,i+1)
    ax.hist(rs, density=True, bins='auto', alpha=0.2)
    ax.plot(xs, ys)
    plt.title(f"n={n}")

plt.show()

效果如下，可见随着 $n$ 越来越大，二项分布的随机数越来越靠近正态分布的概率密度曲线

在这里插入图片描述