LionKing数据科学专栏

购买普通会员高级会员可以解锁网站精华内容且享受VIP服务的优惠

想要查看更多数据科学相关的内容请关注我们的微信公众号知乎专栏

常见分布(common distributions)

本文介绍常见的概率分布,包括离散分布(discrete distribution):伯努利(Bernoulli)分布,二项(Binomial)分布,几何(Geometric)分布,泊松(Poisson)分布;连续分布(continuous distribution):指数(Exponential)分布,均匀(Uniform)分布,正态(Normal)分布,t分布,卡方($\chi^2$)分布,F分布。

伯努利(Bernoulli)分布

伯努利分布又称两点分布,是由单个参数(parameter)$p$描述的最简单的离散分布。概率密度函数(probability density function)为

$$\Pr[X = 1] = p = 1 - \Pr[X = 0]$$

形式上$\Pr[X = k] = p^k(1 - p)^{1 - k}, k \in \{0, 1\}$。

记为$Ber(p)$。

伯努利分布的期望(expectation)为$p$,方差(variance)为$p - p^2$。

二项(Binomial)分布

二项分布是由两个参数$n$和$p$描述的取值于$0, 1, \ldots, n$的离散分布。概率密度函数为

$$\Pr[X = k] = C_n^kp^k(1 - p)^{n - k}$$

记为$Bin(n, p)$。

这一随机变量的概率意义是$n$个相互独立的以$p$为参数的伯努利随机变量之和。

二项分布的期望为$np$,方差为$np(1 - p)$。

两个独立的具有相同$p$的二项分布之和也是二项分布。$$X \sim Bin(m, p), Y \sim Bin(n, p) \Rightarrow X + Y \sim Bin(m + n, p)$$

假设$n$次观测中有$m$次成功,对成功率$p$的最大似然估计(maximum likelihood estimation)为$\hat{p} = \frac{m}{n}$。

对$p$的估计的置信区间(confidence interval)有非常多不同的方法。其中最常用的方法为正态逼近(normal approximation)。

根据中心极限定理(Central Limit Theorem; CLT),$X = X_1 + \ldots + X_n$近似服从正态分布:

$$\frac{X - np}{\sqrt{np(1 - p)}} \approx N(0, 1)$$

当观测为$m$的时候,可以近似地认为$\Pr[|m - np| \geqslant z\sqrt{np(1 - p)}] = \alpha$,其中$z$为标准正态分布的$1 - \frac{\alpha}{2}$分位数(quantile)。

注意到$p \approx \frac{m}{n}$,可以进一步得到$$\Pr[|m - np| \geqslant z\sqrt{n\frac{m}{n}(1 - \frac{m}{n})}] \approx \alpha$$

因此可以得出$p$的置信区间为$$\left[\frac{m}{n} - z\sqrt{\frac{\frac{m}{n}(1 - \frac{m}{n})}{n}}, \frac{m}{n} + z\sqrt{\frac{\frac{m}{n}(1 - \frac{m}{n})}{n}}\right]$$

在工业界中,这个置信区间常常用于估计用户的点击率。

假设$np$非常小,这一估计不再准确。可以利用$Bin(n, p) \approx Pois(np)$的性质进行置信区间的计算。

几何(Geometric)分布

几何分布是由单个参数$p$描述的正整数上取值的离散分布。概率密度函数为

$$\Pr[X = k] = (1 - p)^{k - 1}p$$

概率意义为反复进行$Ber(p)$观测,第一次得到1时已经观测过样本的个数。

记作$Geom(p)$。

几何分布的期望为$\frac{1}{p}$,方差为$\frac{1 - p}{p^2}$。

$n$个独立的几何分布$X_1 \sim Geom(p_1), \ldots, X_n \sim Geom(p_n)$的最小值$Y = \min\{X_1, \ldots, X_n\}$服从几何分布$Geom(1 - \prod_{i=1}^{n}(1 - p_i))$。

泊松(Poisson)分布

泊松分布是由单个参数$\lambda$描述的非负整数上取值的离散分布。概率密度函数为

$$\Pr[X = k] = \frac{\lambda^k}{k!}e^{-\lambda}, k = 0, 1, 2, \ldots$$

记作$Pois(\lambda)$。

泊松分布的期望和方差都是$\lambda$。

两个独立的泊松分布之和服从泊松分布。$$X \sim Pois(\lambda_1), Y \sim Pois(\lambda_2) \Rightarrow X + Y \sim Pois(\lambda_1 + \lambda_2)$$

给定$n$个来自泊松分布的样本$x_1, \ldots, x_n$,想要估计参数$\lambda$。最大似然估计(Maximum likelihood estimation)为$\hat{\lambda} = \frac{1}{n}\sum_{i=1}^{n}x_i$。

指数(Exponential)分布

指数分布是由单个参数$\lambda$描述的非负实数上的连续分布,概率密度函数为

$$p(x) = \lambda e^{-\lambda x}, x \geqslant 0$$

记为$Exp(\lambda)$。

指数分布的期望为$\frac{1}{\lambda}$,方差为$\frac{1}{\lambda^2}$。

指数分布满足无记忆性(memorylessness):

$$\Pr[X \gt s + t|X \gt s] = \Pr[X \gt t], \forall s, t \geqslant 0$$

直觉上的理解是,想象一个事件的发生时间服从指数分布,那么已知这件事情在过了$s$时间还没有发生,并不影响这件事情接下来还要等待的时间的分布。

$n$个独立的指数分布的最小值服从指数分布:$$X_1 \sim Exp(\lambda_1), \ldots, X_n \sim Exp(\lambda_n) \Rightarrow Y = \min\{X_1, \ldots, X_n\} \sim Exp(\lambda_1 + \ldots + \lambda_n)$$

均匀(Uniform)分布

均匀分布是由两个参数$a, b$描述的区间$[a, b]$上的连续分布,其概率密度函数为

$$p(x) = \frac{1}{b - a}, \forall a \leqslant x \leqslant b$$

记为$Unif(a, b)$。

均匀分布的期望为$\frac{a + b}{2}$,方差为$\frac{(b - a)^2}{12}$。

$n$个独立标准均匀分布$Unif(0, 1)$的总和不超过1的概率为$\frac{1}{n!}$。

正态(Normal)分布

正态分布,又称高斯(Gaussian)分布,是由两个参数期望$\mu$, 标准差(standard deviation)$\sigma$刻画的$\mathbb{R}$上的连续分布。其概率密度函数为

$$p(x) = \frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(x - \mu)^2}{2\sigma^2}}$$

记为$N(\mu, \sigma^2)$。$N(0, 1)$被称作标准正态分布(standard normal distribution)。

正态分布的期望为$\mu$,方差为$\sigma^2$。

对于非负整数$p$,标准正态分布的$p$阶矩($p$-th moment)为

$$\mathbb{E}[X^p] = \begin{cases} 0 & \text{$p$ 为奇数}\\ (p - 1)(p - 3)\ldots 1 & \text{$p$ 为偶数} \end{cases}$$

证明类似正态分布方差的推导,要用到数学归纳法和分步积分。

若$X \sim N(\mu, \sigma^2)$,则$\frac{X - \mu}{\sigma} \sim N(0, 1)$。

两个独立的正态分布的和为正态分布:$$X \sim N(\mu_1, \sigma_1^2), Y \sim N(\mu_2, \sigma_2^2) \Rightarrow X + Y \sim N(\mu_1 + \mu_2, \sigma_1^2 + \sigma_2^2)$$

给定来自正态分布的样本$X_1, \ldots, X_n$,参数的最大似然估计为$$\hat{\mu} = \frac{1}{n}\sum_{i=1}^{n}X_i, \hat{\sigma}^2 = \frac{1}{n}\sum_{i=1}^{n}(x_i - \hat{\mu})^2$$

实际中更多地使用$$s^2 = \frac{n}{n - 1}\hat{\sigma^2} = \frac{1}{n - 1}\sum_{i=1}^{n}(x_i - \hat{\mu})^2$$

作为方差的估计。$s^2$是真实方差的无偏估计量(unbiased estimator)。

卡方($\chi^2$)分布

卡方分布有一个自由度(degrees of freedom)$k$,定义为$k$个独立的标准正态分布的平方和:

$$Y = X_1^2 + \ldots + X_k^2$$

卡方分布的期望为$k$,方差为$2k$。

t分布

t分布所对应的t检验(t-test)被广泛用于业界需要的AB试验(AB test)中。

t分布有一个自由度$k$,定义为:

$$T = \frac{Z}{\sqrt{V / k}}$$

其中$Z$是标准正态分布,$V$是自由度为$k$的卡方分布,且$Z$和$V$独立。

记为$t(k)$。

假设$X_1, \ldots, X_n$为独立的正态分布样本,来自$N(\mu, \sigma^2)$,则

$$\frac{\overline{X} - \mu}{S / \sqrt{n}} \sim t(n - 1)$$

其中$$\overline{X} = \frac{1}{n}\sum_{i=1}^{n}X_i, S^2 = \frac{1}{n - 1}\sum_{i=1}^{n}(X_i - \overline{X})^2$$

F分布

F分布有两个自由度$d_1, d_2$,定义为

$$X = \frac{Y / d_1}{Z / d_2}$$

其中$Y \sim \chi^2(d_1), Z \sim \chi^2(d_2)$独立。

记为$F(a, b)$。

F分布被广泛用于方差分析(ANOVA),进一步可以帮助进行模型选择(model selection)。

     

概率论教程

更多练习题请见概率论练习题

更多概率论相关问题见本网站论坛概率论版面

更多面试真题见面试真题汇总

更多面试问题见面试真题汇总

想要查看更多数据科学相关的内容请关注我们的微信公众号知乎专栏