LionKing数据科学专栏

购买普通会员高级会员可以解锁网站精华内容且享受VIP服务的优惠

想要查看更多数据科学相关的内容请关注我们的微信公众号知乎专栏

贝叶斯公式(Bayes' theorem)

本文介绍条件概率与贝叶斯公式。

条件概率(conditional probability)

条件概率$\Pr[A|B]$必须定义在两个事件A和B上,含义是在B发生的条件下,A发生的概率。

可以想象B是已经满足的条件,条件概率即是在给定条件下A事件的概率。除非A与B独立,否则B的发生会影响A,因此一定有$\Pr[A|B] \neq \Pr[A]$。

数学上,$$\Pr[A|B] = \frac{\Pr[A \cap B]}{\Pr[B]}$$为A与B同时发生的概率与B发生的概率的比例。

几何上,可以用文恩图表示事件A与B:

B已经满足条件可以看作全集是B,即黑色圈出的区域,在该区域中发生A,对应A与B的交集区域。因此概率为A与B交际区域的面积与B的面积的比例。

全概率公式(law of total probability)

全概率公式非常直观,其含义是如果有一些互斥的事件$B_1, \ldots, B_k$,它们的并集为全集。则任何事件$A$发生的概率可以拆分为每一个$A \cap B_i$的概率之和。

几何上,

A被$B_1, \ldots, B_k$划分成了$A \cap B_1, A \cap B_2, \ldots, A \cap B_k$,因此A的概率为这些划分出来的事件的概率之和。

数学上,

$$\Pr[A] = \sum_{i=1}^{k}\Pr[A \cap B_k]$$

由条件概率的定义,等价于

$$\Pr[A] = \sum_{i=1}^{k}\Pr[B_k]\Pr[A|B_k]$$

当A事件取决于$B_1, \ldots, B_k$中的哪一个发生时,直接计算$A$事件的概率非常困难,可以转而计算$B_i$的概率和$A|B_i$的条件概率。

全概率公式是贝叶斯公式的基础。

贝叶斯公式(Bayes' theorem)

贝叶斯公式对于两个事件A和B定义。如果我们希望计算$A|B$的条件概率,那么由于

$$\Pr[A|B] = \frac{\Pr[A \cap B]}{\Pr[B]}$$

以及$$\Pr[B|A] = \frac{\Pr[A \cap B]}{\Pr[A]}$$

我们有如下贝叶斯公式:

$$\Pr[A|B] = \frac{\Pr[B|A]\Pr[A]}{\Pr[B]}$$

贝叶斯公式一般结合全概率公式使用,我们以一个简单的例子说明:

某城市发生了一起汽车撞人逃跑事件,该城市只有两种颜色的车,蓝20%绿80%,事发时现场有一个目击者,他指证是蓝车,但是根据专家在现场分析,当时那种条件能看正确的可能性是80%,那么,肇事的车是蓝车的概率是多少?

我们的观测(evidence)$B$是目击者指证蓝车,需要计算肇事车是蓝车这一事件$A$的条件概率$\Pr[A|B]$。

由贝叶斯公式,$$\Pr[A|B] = \frac{\Pr[B|A]\Pr[A]}{\Pr[B]}$$

由题目条件,$\Pr[A] = 0.2, \Pr[B|A]$为看正确的概率0.8。

直接计算目击者指证蓝车的概率并不容易,但是我们可以利用全概率公式:

$$\Pr[B] = \Pr[A]\Pr[B|A] + \Pr[A^c]\Pr[B|A^c]$$

其中$A^c$为$A$的反面,即肇事车是绿车。

有题目条件, $\Pr[A^c] = 0.8, \Pr[B|A^c]$为看错的概率0.2。

从而有,$$\begin{align*} \Pr[A|B] &= \frac{\Pr[B|A]\Pr[A]}{\Pr[B|A]\Pr[A] + \Pr[B|A^c]\Pr[A^c]}\\ &= \frac{0.8 \times 0.2}{0.8 \times 0.2 + 0.2 \times 0.8}\\ &= 0.5 \end{align*}$$

一般地,也可以将全集划分为多个事件$A_1, \ldots, A_k$,计算$$\Pr[A_1|B] = \frac{\Pr[A_1]\Pr[B|A_1]}{\sum_{i=1}^{k}\Pr[A_i]\Pr[B|A_i]}$$

练习题

Q:有8个箱子,现在有一封信,这封信放在这8个箱子中每一个的概率均为1/10, 不放在任何一个箱子的概率为1/5, 现在我打开1号箱子发现是空的,求下面7个箱子中含有这封信的概率?

需要购买普通会员高级会员登录后刷新该页面查看

   

概率论教程

更多练习题请见概率论练习题

更多概率论相关问题见本网站论坛概率论版面

更多面试真题见面试真题汇总

更多面试问题见面试真题汇总

想要查看更多数据科学相关的内容请关注我们的微信公众号知乎专栏