3.4 P(⋅∣F)P(\cdot|F)P(⋅∣F) 是概率
公理
条件概率满足普通概率的所有性质。命题 5.1 证明了条件概率 P(E∣F)P(E|F)P(E∣F) 满足概率的三条公理。
命题 5.1:
(a) 0≤P(E∣F)≤10 \leq P(E|F) \leq 10≤P(E∣F)≤1。
(b) P(S∣F)=1P(S|F) = 1P(S∣F)=1。
© 若 EiE_iEi (i=1,2,…i=1,2,\ldotsi=1,2,…) 为互不相容的事件序列,则
P(⋃i=1∞Ei∣F)=∑i=1∞P(Ei∣F) P\left(\bigcup_{i=1}^{\infty} E_i | F\right) = \sum_{i=1}^{\infty} P(E_i | F) P(i=1⋃∞Ei∣F)=i=1∑∞P(Ei∣F)
证明:
(a) 由 0≤P(EF)≤P(F)0 \leq P(EF) \leq P(F)0≤P(EF)≤P(F),可得 0≤P(EF)P(F)≤10 \leq \frac{P(EF)}{P(F)} \leq 10≤P(F)P(EF)≤1。
(b) P(S∣F)=P(SF)P(F)=P(F)P(F)=1P(S|F) = \frac{P(SF)}{P(F)} = \frac{P(F)}{P(F)} = 1P(S∣F)=P(F)P(SF)=P(F)P(F)=1。
©
P(⋃i=1∞Ei∣F)=P((⋃i=1∞Ei)F)P(F)=P(⋃i=1∞EiF)P(F)=∑i=1∞P(EiF)P(F)=∑i=1∞P(Ei∣F) \begin{aligned} P\left(\bigcup_{i=1}^{\infty} E_i | F\right) &= \frac{P\left(\left(\bigcup_{i=1}^{\infty} E_i\right) F\right)}{P(F)} = \frac{P\left(\bigcup_{i=1}^{\infty} E_i F\right)}{P(F)} \\ &= \frac{\sum_{i=1}^{\infty} P(E_i F)}{P(F)} = \sum_{i=1}^{\infty} P(E_i | F) \end{aligned} P(i=1⋃∞Ei∣F)=P(F)P((⋃i=1∞Ei)F)=P(F)P(⋃i=1∞EiF)=P(F)∑i=1∞P(EiF)=i=1∑∞P(Ei∣F)
如果我们定义 Q(E)=P(E∣F)Q(E) = P(E|F)Q(E)=P(E∣F),那么根据命题 5.1,Q(E)Q(E)Q(E) 可以视为关于样本空间 SSS 中事件的概率函数。因此,前面证明的关于概率的命题它都满足。例如:
Q(E1∪E2)=Q(E1)+Q(E2)−Q(E1E2) Q(E_1 \cup E_2) = Q(E_1) + Q(E_2) - Q(E_1 E_2) Q(E1∪E2)=Q(E1)+Q(E2)−Q(E1E2)
或者等价地,
P(E1∪E2∣F)=P(E1∣F)+P(E2∣F)−P(E1E2∣F) P(E_1 \cup E_2 | F) = P(E_1 | F) + P(E_2 | F) - P(E_1 E_2 | F) P(E1∪E2∣F)=P(E1∣F)+P(E2∣F)−P(E1E2∣F)
条件独立性
事件的条件独立性是一个重要概念。如果已知 FFF 发生的条件下,E1E_1E1 发生的概率不因 E2E_2E2 是否发生而改变,则称事件 E1E_1E1 和 E2E_2E2 关于给定的事件 FFF 是条件独立的(conditionally independent)。更确切地说,如果
P(E1∣E2F)=P(E1∣F) P(E_1 | E_2 F) = P(E_1 | F) P(E1∣E2F)=P(E1∣F)
或等价地,
P(E1E2∣F)=P(E1∣F)P(E2∣F) P(E_1 E_2 | F) = P(E_1 | F) P(E_2 | F) P(E1E2∣F)=P(E1∣F)P(E2∣F)
则称 E1E_1E1 与 E2E_2E2 关于 FFF 是条件独立的。
例题
例 5a:考虑例 3a,保险公司认为人可以分为两种不同的类,一类易出事故,另一类不易出事故。在任意给定的一年内,易出事故者将发生事故的概率为 0.4,而对不易出事故者来说,此概率为 0.2。若已知某新保险客户在第一年已经出过一次事故,问他在保险有效的第二年又出一次事故的条件概率是多大?
解:令 AAA 表示"该保险客户是易出事故者",AiA_iAi 表示"他在第 iii 年出一次事故"。则:
P(A2∣A1)=P(A2∣AA1)P(A∣A1)+P(A2∣AcA1)P(Ac∣A1) P(A_2 | A_1) = P(A_2 | AA_1) P(A | A_1) + P(A_2 | A^c A_1) P(A^c | A_1) P(A2∣A1)=P(A2∣AA1)P(A∣A1)+P(A2∣AcA1)P(Ac∣A1)
[!NOTE]
首先,根据概率的基本性质,我们知道:
P(A2∣A1)=P(A1A2)P(A1)P(A_2 | A_1) = \frac{P(A_1 A_2)}{P(A_1)}P(A2∣A1)=P(A1)P(A1A2)现在,考虑事件 AAA(客户是易出事故者)及其补集 AcA^cAc(客户不是易出事故者)。这两个事件是互斥且穷尽的,即:
- AAA 和 AcA^cAc 不能同时发生(互斥)
- 要么 AAA 发生,要么 AcA^cAc 发生(穷尽)
因此,我们可以将 P(A1A2)P(A_1 A_2)P(A1A2) 分解为:
P(A1A2)=P(A1A2A)+P(A1A2Ac)P(A_1 A_2) = P(A_1 A_2 A) + P(A_1 A_2 A^c)P(A1A2)=P(A1A2A)+P(A1A2Ac)代入条件概率公式:
P(A2∣A1)=P(A1A2)P(A1)=P(A1A2A)+P(A1A2Ac)P(A1)P(A_2 | A_1) = \frac{P(A_1 A_2)}{P(A_1)} = \frac{P(A_1 A_2 A) + P(A_1 A_2 A^c)}{P(A_1)}P(A2∣A1)=P(A1)P(A1A2)=P(A1)P(A1A2A)+P(A1A2Ac)将分子拆分为两项:
P(A2∣A1)=P(A1A2A)P(A1)+P(A1A2Ac)P(A1)P(A_2 | A_1) = \frac{P(A_1 A_2 A)}{P(A_1)} + \frac{P(A_1 A_2 A^c)}{P(A_1)}P(A2∣A1)=P(A1)P(A1A2A)+P(A1)P(A1A2Ac)现在,对每一项进行变形:
P(A1A2A)P(A1)=P(A1A2A)P(A1A)⋅P(A1A)P(A1)=P(A2∣A1A)⋅P(A∣A1)\frac{P(A_1 A_2 A)}{P(A_1)} = \frac{P(A_1 A_2 A)}{P(A_1 A)} \cdot \frac{P(A_1 A)}{P(A_1)} = P(A_2 | A_1 A) \cdot P(A | A_1)P(A1)P(A1A2A)=P(A1A)P(A1A2A)⋅P(A1)P(A1A)=P(A2∣A1A)⋅P(A∣A1)同理:
P(A1A2Ac)P(A1)=P(A2∣A1Ac)⋅P(Ac∣A1)\frac{P(A_1 A_2 A^c)}{P(A_1)} = P(A_2 | A_1 A^c) \cdot P(A^c | A_1)P(A1)P(A1A2Ac)=P(A2∣A1Ac)⋅P(Ac∣A1)因此:
P(A2∣A1)=P(A2∣A1A)⋅P(A∣A1)+P(A2∣A1Ac)⋅P(Ac∣A1)P(A_2 | A_1) = P(A_2 | A_1 A) \cdot P(A | A_1) + P(A_2 | A_1 A^c) \cdot P(A^c | A_1)P(A2∣A1)=P(A2∣A1A)⋅P(A∣A1)+P(A2∣A1Ac)⋅P(Ac∣A1)
|这个例子直接应用了条件独立性的概念。关键在于,保险公司模型假设:一旦知道一个人是易出事故者还是不易出事故者,那么他各年出事故的事件是条件独立的。
具体来说,我们假设:
- 在已知 AAA(客户是易出事故者)的条件下,A1A_1A1 和 A2A_2A2 是条件独立的
- 在已知 AcA^cAc(客户不是易出事故者)的条件下,A1A_1A1 和 A2A_2A2 也是条件独立的
这意味着:
P(A2∣AA1)=P(A2∣A)=0.4 P(A_2 | AA_1) = P(A_2 | A) = 0.4 P(A2∣AA1)=P(A2∣A)=0.4
P(A2∣AcA1)=P(A2∣Ac)=0.2 P(A_2 | A^c A_1) = P(A_2 | A^c) = 0.2 P(A2∣AcA1)=P(A2∣Ac)=0.2
重要说明:注意 A1A_1A1 和 A2A_2A2 在无条件时不是独立的。因为第一年出事故会影响我们对客户类型的判断(通过贝叶斯定理),从而间接影响第二年出事故的概率。但在已知客户类型的情况下,A1A_1A1 和 A2A_2A2 是条件独立的。
其中
P(A∣A1)=P(A1∣A)P(A)P(A1)=0.4×0.30.26=613 P(A|A_1) = \frac{P(A_1|A)P(A)}{P(A_1)} = \frac{0.4 \times 0.3}{0.26} = \frac{6}{13} P(A∣A1)=P(A1)P(A1∣A)P(A)=0.260.4×0.3=136
P(Ac∣A1)=1−P(A∣A1)=713 P(A^c | A_1) = 1 - P(A | A_1) = \frac{7}{13} P(Ac∣A1)=1−P(A∣A1)=137
因为 P(A2∣AA1)=0.4P(A_2|AA_1)=0.4P(A2∣AA1)=0.4,P(A2∣AcA1)=0.2P(A_2|A^c A_1)=0.2P(A2∣AcA1)=0.2,所以
P(A2∣A1)=0.4×613+0.2×713≈0.29 P(A_2 | A_1) = 0.4 \times \frac{6}{13} + 0.2 \times \frac{7}{13} \approx 0.29 P(A2∣A1)=0.4×136+0.2×137≈0.29
例 5b:一只母猩猩生了一只幼猩猩,但是,却不能断定两只公猩猩究竟哪一只是父亲。在进行基因分析之前,有迹象表明第一只公猩猩为父亲的概率为 ppp,第二只为父亲的概率为 1−p1-p1−p。从这三只猩猩身上获得的 DNA 表明,对于一个特殊的基因组,母猩猩具有基因对 (A,A)(A,A)(A,A),第一只公猩猩具有基因对 (a,a)(a,a)(a,a),而第二只公猩猩具有基因对 (A,a)(A,a)(A,a)。如果 DNA 检验表明幼猩猩具有基因对 (A,a)(A,a)(A,a),那么第一只公猩猩是父亲的概率是多少?
解:令 MiM_iMi (i=1,2i=1,2i=1,2) 表示第 iii 只公猩猩为父亲这一事件,BA,aB_{A,a}BA,a 表示幼猩猩具有基因对 (A,a)(A,a)(A,a)。则:
P(M1∣BA,a)=P(BA,a∣M1)P(M1)P(BA,a∣M1)P(M1)+P(BA,a∣M2)P(M2)=1×p1×p+1/2×(1−p)=2p1+p \begin{aligned} P(M_1 | B_{A,a}) &= \frac{P(B_{A,a} | M_1) P(M_1)}{P(B_{A,a} | M_1) P(M_1) + P(B_{A,a} | M_2) P(M_2)} \\ &= \frac{1 \times p}{1 \times p + 1/2 \times (1 - p)} = \frac{2p}{1 + p} \end{aligned} P(M1∣BA,a)=P(BA,a∣M1)P(M1)+P(BA,a∣M2)P(M2)P(BA,a∣M1)P(M1)=1×p+1/2×(1−p)1×p=1+p2p
例 5c:设有一个独立重复试验序列,每次试验成功的概率为 ppp,失败的概率为 q=1−pq=1-pq=1−p。计算长度为 nnn 的成功游程(连续 nnn 次成功)先于长度为 mmm 的失败游程(连续 mmm 次失败)出现的概率。
记 EEE 为事件"长度为 nnn 的成功游程先于长度为 mmm 的失败游程出现"。以第一次试验结果为条件:
- HHH:第一次试验成功
- HcH^cHc:第一次试验失败
根据全概率公式:
P(E)=P(E∣H)P(H)+P(E∣Hc)P(Hc)=pP(E∣H)+qP(E∣Hc)(1) P(E) = P(E|H)P(H) + P(E|H^c)P(H^c) = pP(E|H) + qP(E|H^c) \tag{1} P(E)=P(E∣H)P(H)+P(E∣Hc)P(Hc)=pP(E∣H)+qP(E∣Hc)(1)
假设第一次试验成功,令 FFF 表示"第 2 次到第 nnn 次试验均成功"(即前 nnn 次都成功)。
以 FFF 为条件:
P(E∣H)=P(E∣FH)P(F∣H)+P(E∣FcH)P(Fc∣H)(2) P(E|H) = P(E|FH)P(F|H) + P(E|F^cH)P(F^c|H) \tag{2} P(E∣H)=P(E∣FH)P(F∣H)+P(E∣FcH)P(Fc∣H)(2)
- P(F∣H)=pn−1P(F|H) = p^{n-1}P(F∣H)=pn−1(因为第 2 次到第 nnn 次都成功的概率)
- P(Fc∣H)=1−pn−1P(F^c|H) = 1 - p^{n-1}P(Fc∣H)=1−pn−1
- P(E∣FH)=1P(E|FH) = 1P(E∣FH)=1(因为前 nnn 次都成功,长度为 nnn 的成功游程已经出现)
- P(E∣FcH)=P(E∣Hc)P(E|F^cH) = P(E|H^c)P(E∣FcH)=P(E∣Hc)(当第一次失败发生时,前面的成功已失效,相当于从失败开始)
[!NOTE]
当FcHF^cHFcH发生时,意味着:
- 第一次试验成功
- 在第2次到第nnn次试验中,至少有一次失败
疑问是:如果第一次失败发生在位置kkk(2≤k≤n2 \leq k \leq n2≤k≤n),那么在kkk之后到nnn的位置,可能存在一段连续的成功,甚至可能达到nnn次成功。
用一个具体例子来说明,假设n=5n=5n=5(我们需要5次连续成功),m=3m=3m=3(我们需要3次连续失败):
情况1:序列是 S, S, F, S, S, S, S, S, …
- 第一次失败在第3次试验
- 从第4次到第8次,我们有5次连续成功
- 在第8次试验后,我们形成了长度为5的成功游程
情况2:序列是 S, F, S, S, S, S, S, …
- 第一次失败在第2次试验
- 从第3次到第7次,我们有5次连续成功
- 在第7次试验后,我们形成了长度为5的成功游程
在两种情况下,我们都最终形成了长度为5的成功游程,但形成的方式不同。
当我们计算P(E∣FcH)P(E|F^cH)P(E∣FcH)时,我们是在给定FcHF^cHFcH发生的条件下计算概率。这意味着我们知道:
- 第一次试验成功
- 在第2次到第5次试验中至少有一次失败
但不知道第一次失败具体发生在哪一次试验,也不知道第一次失败之后发生了什么。
因此,P(E∣FcH)P(E|F^cH)P(E∣FcH)实际上是所有满足FcHF^cHFcH条件的序列中,最终形成长度为nnn的成功游程先于长度为mmm的失败游程的比例。
为什么P(E∣FcH)=P(E∣Hc)P(E|F^cH) = P(E|H^c)P(E∣FcH)=P(E∣Hc)是正确的
考虑FcHF^cHFcH发生后的状态:
- 设第一次失败发生在第kkk次试验(2≤k≤n2 \leq k \leq n2≤k≤n)
- 在第kkk次试验后,我们刚刚经历了一次失败
- 由于试验是独立的,从第k+1k+1k+1次试验开始的未来结果与过去的试验结果无关
- 因此,从第k+1k+1k+1次试验开始,我们需要决定是先形成nnn次连续成功还是mmm次连续失败
现在,考虑HcH^cHc发生后的状态:
- 第一次试验失败
- 在第1次试验后,我们刚刚经历了一次失败
- 从第2次试验开始,我们需要决定是先形成nnn次连续成功还是mmm次连续失败
关键洞察:在FcHF^cHFcH发生后,无论第一次失败发生在第kkk次试验(2≤k≤n2 \leq k \leq n2≤k≤n),从第k+1k+1k+1次试验开始的未来状态与HcH^cHc发生后从第2次试验开始的未来状态完全相同:
- 我们刚刚经历了一次失败
- 我们需要决定后续是先形成nnn次连续成功还是mmm次连续失败
由于试验是独立的,这两种情况下的概率分布是相同的。
- 在FcHF^cHFcH条件下,我们知道在第2次到第nnn次试验中至少有一次失败,所以不可能在前nnn次试验中形成长度为nnn的成功游程
- 我们关心的是在第nnn次试验之后,是先形成长度为nnn的成功游程还是长度为mmm的失败游程
- 在第一次失败发生后(无论它发生在第2次、第3次,…,还是第nnn次试验),我们所处的状态是相同的:刚刚经历了一次失败
因此,无论第一次失败发生在哪一次试验,在第一次失败发生后,形成长度为nnn的成功游程先于长度为mmm的失败游程的概率是相同的。
这就是为什么P(E∣FcH)=P(E∣Hc)P(E|F^cH) = P(E|H^c)P(E∣FcH)=P(E∣Hc)。
代入公式 (2):
P(E∣H)=1⋅pn−1+P(E∣Hc)⋅(1−pn−1) P(E|H) = 1 \cdot p^{n-1} + P(E|H^c) \cdot (1 - p^{n-1}) P(E∣H)=1⋅pn−1+P(E∣Hc)⋅(1−pn−1)
P(E∣H)=pn−1+(1−pn−1)P(E∣Hc)(3) P(E|H) = p^{n-1} + (1 - p^{n-1})P(E|H^c) \tag{3} P(E∣H)=pn−1+(1−pn−1)P(E∣Hc)(3)
假设第一次试验失败,令 GGG 表示"第 2 次到第 mmm 次试验均失败"(即前 mmm 次都失败)。
以 GGG 为条件:
P(E∣Hc)=P(E∣GHc)P(G∣Hc)+P(E∣GcHc)P(GcHc)(4) P(E|H^c) = P(E|GH^c)P(G|H^c) + P(E|G^cH^c)P(G^cH^c) \tag{4} P(E∣Hc)=P(E∣GHc)P(G∣Hc)+P(E∣GcHc)P(GcHc)(4)
- P(G∣Hc)=qm−1P(G|H^c) = q^{m-1}P(G∣Hc)=qm−1(因为第 2 次到第 mmm 次都失败的概率)
- P(Gc∣Hc)=1−qm−1P(G^c|H^c) = 1 - q^{m-1}P(Gc∣Hc)=1−qm−1
- P(E∣GHc)=0P(E|GH^c) = 0P(E∣GHc)=0(因为前 mmm 次都失败,长度为 mmm 的失败游程已经出现)
- P(E∣GcHc)=P(E∣H)P(E|G^cH^c) = P(E|H)P(E∣GcHc)=P(E∣H)(当第一次成功发生时,前面的失败已失效,相当于从成功开始)
代入公式 (4):
P(E∣Hc)=0⋅qm−1+P(E∣H)⋅(1−qm−1) P(E|H^c) = 0 \cdot q^{m-1} + P(E|H) \cdot (1 - q^{m-1}) P(E∣Hc)=0⋅qm−1+P(E∣H)⋅(1−qm−1)
P(E∣Hc)=(1−qm−1)P(E∣H)(5) P(E|H^c) = (1 - q^{m-1})P(E|H) \tag{5} P(E∣Hc)=(1−qm−1)P(E∣H)(5)
将方程 (5) 代入方程 (3):
P(E∣H)=pn−1+(1−pn−1)(1−qm−1)P(E∣H) P(E|H) = p^{n-1} + (1 - p^{n-1})(1 - q^{m-1})P(E|H) P(E∣H)=pn−1+(1−pn−1)(1−qm−1)P(E∣H)
移项整理:
P(E∣H)−(1−pn−1)(1−qm−1)P(E∣H)=pn−1 P(E|H) - (1 - p^{n-1})(1 - q^{m-1})P(E|H) = p^{n-1} P(E∣H)−(1−pn−1)(1−qm−1)P(E∣H)=pn−1
P(E∣H)[1−(1−pn−1)(1−qm−1)]=pn−1 P(E|H)[1 - (1 - p^{n-1})(1 - q^{m-1})] = p^{n-1} P(E∣H)[1−(1−pn−1)(1−qm−1)]=pn−1
计算分母:
1−(1−pn−1)(1−qm−1)=1−[1−pn−1−qm−1+pn−1qm−1]=pn−1+qm−1−pn−1qm−1 \begin{aligned} 1 - (1 - p^{n-1})(1 - q^{m-1}) &= 1 - [1 - p^{n-1} - q^{m-1} + p^{n-1}q^{m-1}] \\ &= p^{n-1} + q^{m-1} - p^{n-1}q^{m-1} \end{aligned} 1−(1−pn−1)(1−qm−1)=1−[1−pn−1−qm−1+pn−1qm−1]=pn−1+qm−1−pn−1qm−1
因此:
P(E∣H)=pn−1pn−1+qm−1−pn−1qm−1(6) P(E|H) = \frac{p^{n-1}}{p^{n-1} + q^{m-1} - p^{n-1}q^{m-1}} \tag{6} P(E∣H)=pn−1+qm−1−pn−1qm−1pn−1(6)
将 (6) 代入 (5):
P(E∣Hc)=(1−qm−1)⋅pn−1pn−1+qm−1−pn−1qm−1(7) P(E|H^c) = (1 - q^{m-1}) \cdot \frac{p^{n-1}}{p^{n-1} + q^{m-1} - p^{n-1}q^{m-1}} \tag{7} P(E∣Hc)=(1−qm−1)⋅pn−1+qm−1−pn−1qm−1pn−1(7)
将 (6) 和 (7) 代入 (1):
P(E)=p⋅pn−1pn−1+qm−1−pn−1qm−1+q⋅(1−qm−1)⋅pn−1pn−1+qm−1−pn−1qm−1=pn+qpn−1(1−qm−1)pn−1+qm−1−pn−1qm−1 \begin{aligned} P(E) &= p \cdot \frac{p^{n-1}}{p^{n-1} + q^{m-1} - p^{n-1}q^{m-1}} + q \cdot (1 - q^{m-1}) \cdot \frac{p^{n-1}}{p^{n-1} + q^{m-1} - p^{n-1}q^{m-1}} \\ &= \frac{p^n + qp^{n-1}(1 - q^{m-1})}{p^{n-1} + q^{m-1} - p^{n-1}q^{m-1}} \end{aligned} P(E)=p⋅pn−1+qm−1−pn−1qm−1pn−1+q⋅(1−qm−1)⋅pn−1+qm−1−pn−1qm−1pn−1=pn−1+qm−1−pn−1qm−1pn+qpn−1(1−qm−1)
简化分子:
pn+qpn−1(1−qm−1)=pn+qpn−1−qpn−1qm−1=pn+qpn−1−pn−1qm=pn−1(p+q−qm)=pn−1(1−qm)(因为 p+q=1) \begin{aligned} p^n + qp^{n-1}(1 - q^{m-1}) &= p^n + qp^{n-1} - qp^{n-1}q^{m-1} \\ &= p^n + qp^{n-1} - p^{n-1}q^m \\ &= p^{n-1}(p + q - q^m) \\ &= p^{n-1}(1 - q^m) \quad (\text{因为 } p + q = 1) \end{aligned} pn+qpn−1(1−qm−1)=pn+qpn−1−qpn−1qm−1=pn+qpn−1−pn−1qm=pn−1(p+q−qm)=pn−1(1−qm)(因为 p+q=1)
因此:
P(E)=pn−1(1−qm)pn−1+qm−1−pn−1qm−1 P(E) = \frac{p^{n-1}(1 - q^m)}{p^{n-1} + q^{m-1} - p^{n-1}q^{m-1}} P(E)=pn−1+qm−1−pn−1qm−1pn−1(1−qm)
长度为 nnn 的成功游程先于长度为 mmm 的失败游程出现的概率为:
P(E)=pn−1(1−qm)pn−1+qm−1−pn−1qm−1 P(E) = \frac{p^{n-1}(1 - q^m)}{p^{n-1} + q^{m-1} - p^{n-1}q^{m-1}} P(E)=pn−1+qm−1−pn−1qm−1pn−1(1−qm)
例 5d:在一次聚会上,n 个人摘下他们的帽子,然后把这些帽子混合在一起,每人再随机选择一顶帽子。如某个人选中了他自己的帽子,我们就说出现了一个配对。求:
- (a) 没有配对的概率
- (b) 恰有 k 个配对的概率
(a) 没有配对的概率
这是一个经典的错位排列(derangement)问题,即没有任何人拿到自己帽子的排列方式。
令 PnP_nPn 表示 n 个人没有配对的概率。我们以第一个人是否选中自己的帽子为条件:
- 令 MMM 表示"第一个人选中自己的帽子"这一事件
- 则 P(E)=P(E∣M)P(M)+P(E∣Mc)P(Mc)P(E) = P(E|M)P(M) + P(E|M^c)P(M^c)P(E)=P(E∣M)P(M)+P(E∣Mc)P(Mc)
显然 P(E∣M)=0P(E|M) = 0P(E∣M)=0(如果第一个人选中自己的帽子,就不可能没有配对),P(M)=1/nP(M) = 1/nP(M)=1/n,P(Mc)=(n−1)/nP(M^c) = (n-1)/nP(Mc)=(n−1)/n,所以:
Pn=P(E∣Mc)⋅n−1nP_n = P(E|M^c) \cdot \frac{n-1}{n}Pn=P(E∣Mc)⋅nn−1
现在考虑 P(E∣Mc)P(E|M^c)P(E∣Mc),即在第一个人没有选中自己帽子的条件下,没有人选中自己帽子的概率。
假设第一个人选中了第 j 个人的帽子(j≠1j \neq 1j=1),有两种互不相容的情况:
第 j 个人选中了第一个人的帽子:概率为 1/(n−1)1/(n-1)1/(n−1)
- 剩下 n−2n-2n−2 个人需要没有配对,概率为 Pn−2P_{n-2}Pn−2
第 j 个人没有选中第一个人的帽子:概率为 (n−2)/(n−1)(n-2)/(n-1)(n−2)/(n−1)
- 此时可以把第 j 个人看作"第一个人",问题转化为 n−1n-1n−1 个人的没有配对问题,概率为 Pn−1P_{n-1}Pn−1
因此:
P(E∣Mc)=1n−1⋅Pn−2+n−2n−1⋅Pn−1P(E|M^c) = \frac{1}{n-1} \cdot P_{n-2} + \frac{n-2}{n-1} \cdot P_{n-1}P(E∣Mc)=n−11⋅Pn−2+n−1n−2⋅Pn−1
代入 PnP_nPn 的公式:
Pn=[1n−1⋅Pn−2+n−2n−1⋅Pn−1]⋅n−1n=1n⋅Pn−2+n−2n⋅Pn−1P_n = \left[\frac{1}{n-1} \cdot P_{n-2} + \frac{n-2}{n-1} \cdot P_{n-1}\right] \cdot \frac{n-1}{n} = \frac{1}{n} \cdot P_{n-2} + \frac{n-2}{n} \cdot P_{n-1}Pn=[n−11⋅Pn−2+n−1n−2⋅Pn−1]⋅nn−1=n1⋅Pn−2+nn−2⋅Pn−1
整理得:
Pn−Pn−1=−1n(Pn−1−Pn−2)P_n - P_{n-1} = -\frac{1}{n}(P_{n-1} - P_{n-2})Pn−Pn−1=−n1(Pn−1−Pn−2)
已知边界条件:
- P1=0P_1 = 0P1=0(只有 1 个人,必须选中自己的帽子)
- P2=12P_2 = \frac{1}{2}P2=21(两个人,只有 1 种方式没有配对:互相交换帽子)
利用递推关系:
P3−P2=−13(P2−P1)=−13⋅12=−16 ⟹ P3=12−16=13P_3 - P_2 = -\frac{1}{3}(P_2 - P_1) = -\frac{1}{3} \cdot \frac{1}{2} = -\frac{1}{6} \implies P_3 = \frac{1}{2} - \frac{1}{6} = \frac{1}{3}P3−P2=−31(P2−P1)=−31⋅21=−61⟹P3=21−61=31
P4−P3=−14(P3−P2)=−14⋅(13−12)=124 ⟹ P4=13+124=38P_4 - P_3 = -\frac{1}{4}(P_3 - P_2) = -\frac{1}{4} \cdot \left(\frac{1}{3} - \frac{1}{2}\right) = \frac{1}{24} \implies P_4 = \frac{1}{3} + \frac{1}{24} = \frac{3}{8}P4−P3=−41(P3−P2)=−41⋅(31−21)=241⟹P4=31+241=83
P5−P4=−15(P4−P3)=−15⋅(38−13)=−1120 ⟹ P5=38−1120=1130P_5 - P_4 = -\frac{1}{5}(P_4 - P_3) = -\frac{1}{5} \cdot \left(\frac{3}{8} - \frac{1}{3}\right) = -\frac{1}{120} \implies P_5 = \frac{3}{8} - \frac{1}{120} = \frac{11}{30}P5−P4=−51(P4−P3)=−51⋅(83−31)=−1201⟹P5=83−1201=3011
通过归纳,我们可以得到通式:
Pn=12!−13!+14!−⋯+(−1)nn!P_n = \frac{1}{2!} - \frac{1}{3!} + \frac{1}{4!} - \dots + \frac{(-1)^n}{n!}Pn=2!1−3!1+4!1−⋯+n!(−1)n
[!NOTE]
也可用容斥恒等式 详见第二章 5m
(b) 恰有 k 个配对的概率
要计算恰好有 k 个配对的概率,我们可以:
- 选择哪 k 个人有配对:(nk)=n!k!(n−k)!\binom{n}{k} = \frac{n!}{k!(n-k)!}(kn)=k!(n−k)!n! 种方式
- 这 k 个人必须选中自己的帽子:概率为 1
- 剩下的 n−kn-kn−k 个人必须没有配对:概率为 Pn−kP_{n-k}Pn−k
因此,恰好有 k 个配对的概率为:
(nk)⋅1⋅Pn−k/n!=n!k!(n−k)!⋅Pn−k/n!=Pn−kk!\binom{n}{k} \cdot 1 \cdot P_{n-k} / n! = \frac{n!}{k!(n-k)!} \cdot P_{n-k} / n! = \frac{P_{n-k}}{k!}(kn)⋅1⋅Pn−k/n!=k!(n−k)!n!⋅Pn−k/n!=k!Pn−k
其中 Pn−k=12!−13!+⋯+(−1)n−k(n−k)!P_{n-k} = \frac{1}{2!} - \frac{1}{3!} + \dots + \frac{(-1)^{n-k}}{(n-k)!}Pn−k=2!1−3!1+⋯+(n−k)!(−1)n−k
所以,恰好有 k 个配对的概率为:
Pn−kk!=12!−13!+⋯+(−1)n−k(n−k)!k!\frac{P_{n-k}}{k!} = \frac{\frac{1}{2!} - \frac{1}{3!} + \dots + \frac{(-1)^{n-k}}{(n-k)!}}{k!}k!Pn−k=k!2!1−3!1+⋯+(n−k)!(−1)n−k
例 5e:拉普拉斯继承准则。一个盒子中有 k+1k+1k+1 枚不均匀的硬币,抛掷第 iii 枚硬币时,其正面朝上的概率为 i/ki/ki/k (i=0,1,…,ki=0,1,\ldots,ki=0,1,…,k)。从盒子中随机取出一枚硬币,并重复地抛掷。如果前 nnn 次抛掷结果都为正面朝上,那么第 n+1n+1n+1 次结果仍为正面朝上的概率是多少?
解:令 CiC_iCi 表示开始取出的是第 iii 枚硬币,FnF_nFn 表示前 nnn 次结果都为正面朝上,HHH 表示第 n+1n+1n+1 次抛掷正面朝上。则所求概率为:
P(H∣Fn)=∑i=0k(i/k)n+1∑j=0k(j/k)n P(H | F_n) = \frac{\sum_{i=0}^{k} (i/k)^{n+1}}{\sum_{j=0}^{k} (j/k)^{n}} P(H∣Fn)=∑j=0k(j/k)n∑i=0k(i/k)n+1
[!NOTE]
当k很大时,可以利用积分近似来计算这个表达式。
积分近似原理
考虑求和 ∑i=0k(i/k)n+1\sum_{i=0}^{k} (i/k)^{n+1}∑i=0k(i/k)n+1。当k很大时,这个求和可以近似为积分。具体来说,1k∑i=0k(i/k)n+1\frac{1}{k} \sum_{i=0}^{k} (i/k)^{n+1}k1∑i=0k(i/k)n+1 是函数 xn+1x^{n+1}xn+1 在区间 [0,1] 上的黎曼和(Riemann sum),其中将区间 [0,1] 分成k等份,每份长度为 1k\frac{1}{k}k1。
当k趋于无穷大时,这个黎曼和收敛到积分 ∫01xn+1dx\int_{0}^{1} x^{n+1} dx∫01xn+1dx。
积分计算
计算积分:
∫01xn+1dx=[xn+2n+2]01=1n+2\int_{0}^{1} x^{n+1} dx = \left[\frac{x^{n+2}}{n+2}\right]_{0}^{1} = \frac{1}{n+2}∫01xn+1dx=[n+2xn+2]01=n+21类似地:
∫01xndx=[xn+1n+1]01=1n+1\int_{0}^{1} x^{n} dx = \left[\frac{x^{n+1}}{n+1}\right]_{0}^{1} = \frac{1}{n+1}∫01xndx=[n+1xn+1]01=n+11近似推导
当k很大时:
1k∑i=0k(ik)n+1≈∫01xn+1dx=1n+2\frac{1}{k} \sum_{i=0}^{k} \left(\frac{i}{k}\right)^{n+1} \approx \int_{0}^{1} x^{n+1} dx = \frac{1}{n+2}k1i=0∑k(ki)n+1≈∫01xn+1dx=n+21
1k∑j=0k(jk)n≈∫01xndx=1n+1\frac{1}{k} \sum_{j=0}^{k} \left(\frac{j}{k}\right)^{n} \approx \int_{0}^{1} x^{n} dx = \frac{1}{n+1}k1j=0∑k(kj)n≈∫01xndx=n+11现在,回到 P(H∣Fn)P(H|F_n)P(H∣Fn) 的表达式:
P(H∣Fn)=∑i=0k(i/k)n+1∑j=0k(j/k)n=k⋅1k∑i=0k(i/k)n+1k⋅1k∑j=0k(j/k)n≈k⋅1n+2k⋅1n+1=n+1n+2P(H|F_n) = \frac{\sum_{i=0}^{k} (i/k)^{n+1}}{\sum_{j=0}^{k} (j/k)^{n}} = \frac{k \cdot \frac{1}{k} \sum_{i=0}^{k} (i/k)^{n+1}}{k \cdot \frac{1}{k} \sum_{j=0}^{k} (j/k)^{n}} \approx \frac{k \cdot \frac{1}{n+2}}{k \cdot \frac{1}{n+1}} = \frac{n+1}{n+2}P(H∣Fn)=∑j=0k(j/k)n∑i=0k(i/k)n+1=k⋅k1∑j=0k(j/k)nk⋅k1∑i=0k(i/k)n+1≈k⋅n+11k⋅n+21=n+2n+1
当 kkk 很大时,
P(H∣Fn)≈n+1n+2 P(H|F_n) \approx \frac{n+1}{n+2} P(H∣Fn)≈n+2n+1
例 5f:序贯地补充信息。假设有一组互不相容且穷尽的假设 H1,H2,…,HnH_1, H_2, \ldots, H_nH1,H2,…,Hn,其初始概率(先验概率)为 P(Hi)P(H_i)P(Hi),∑i=1nP(Hi)=1\sum_{i=1}^{n} P(H_i) = 1∑i=1nP(Hi)=1。
当获得新证据 E1E_1E1 时,我们可以使用贝叶斯公式更新假设的概率:
P(Hi∣E1)=P(E1∣Hi)P(Hi)∑j=1nP(E1∣Hj)P(Hj)P(H_i | E_1) = \frac{P(E_1 | H_i) P(H_i)}{\sum_{j=1}^{n} P(E_1 | H_j) P(H_j)}P(Hi∣E1)=∑j=1nP(E1∣Hj)P(Hj)P(E1∣Hi)P(Hi)
随后,当获得第二个证据 E2E_2E2 时,我们可以有两种方法更新概率:
方法1:直接使用两个证据
P(Hi∣E1E2)=P(E1E2∣Hi)P(Hi)∑j=1nP(E1E2∣Hj)P(Hj)P(H_i | E_1 E_2) = \frac{P(E_1 E_2 | H_i) P(H_i)}{\sum_{j=1}^{n} P(E_1 E_2 | H_j) P(H_j)}P(Hi∣E1E2)=∑j=1nP(E1E2∣Hj)P(Hj)P(E1E2∣Hi)P(Hi)
方法2:序贯更新
- 先用 E1E_1E1 更新,得到 P(Hi∣E1)P(H_i | E_1)P(Hi∣E1)
- 将 P(Hi∣E1)P(H_i | E_1)P(Hi∣E1) 视为新的先验概率
- 再用 E2E_2E2 更新,得到 P(Hi∣E1E2)P(H_i | E_1 E_2)P(Hi∣E1E2)
关键条件:如果在给定 HiH_iHi 的条件下,E1E_1E1 和 E2E_2E2 是条件独立的,即:
P(E1E2∣Hi)=P(E1∣Hi)P(E2∣Hi)P(E_1 E_2 | H_i) = P(E_1 | H_i) P(E_2 | H_i)P(E1E2∣Hi)=P(E1∣Hi)P(E2∣Hi)
那么,序贯更新方法是有效的,且:
P(Hi∣E1E2)=P(E2∣Hi)P(Hi∣E1)∑j=1nP(E2∣Hj)P(Hj∣E1)P(H_i | E_1 E_2) = \frac{P(E_2 | H_i) P(H_i | E_1)}{\sum_{j=1}^{n} P(E_2 | H_j) P(H_j | E_1)}P(Hi∣E1E2)=∑j=1nP(E2∣Hj)P(Hj∣E1)P(E2∣Hi)P(Hi∣E1)
证明
从贝叶斯公式出发:
P(Hi∣E1E2)=P(E1E2∣Hi)P(Hi)P(E1E2)P(H_i | E_1 E_2) = \frac{P(E_1 E_2 | H_i) P(H_i)}{P(E_1 E_2)}P(Hi∣E1E2)=P(E1E2)P(E1E2∣Hi)P(Hi)
利用条件独立性:
P(E1E2∣Hi)=P(E2∣Hi)P(E1∣Hi)P(E_1 E_2 | H_i) = P(E_2 | H_i) P(E_1 | H_i)P(E1E2∣Hi)=P(E2∣Hi)P(E1∣Hi)
代入:
P(Hi∣E1E2)=P(E2∣Hi)P(E1∣Hi)P(Hi)P(E1E2)P(H_i | E_1 E_2) = \frac{P(E_2 | H_i) P(E_1 | H_i) P(H_i)}{P(E_1 E_2)}P(Hi∣E1E2)=P(E1E2)P(E2∣Hi)P(E1∣Hi)P(Hi)
注意到:
P(E1∣Hi)P(Hi)=P(Hi∣E1)P(E1)P(E_1 | H_i) P(H_i) = P(H_i | E_1) P(E_1)P(E1∣Hi)P(Hi)=P(Hi∣E1)P(E1)
所以:
P(Hi∣E1E2)=P(E2∣Hi)P(Hi∣E1)P(E1)P(E1E2)=P(E2∣Hi)P(Hi∣E1)P(E2∣E1)P(H_i | E_1 E_2) = \frac{P(E_2 | H_i) P(H_i | E_1) P(E_1)}{P(E_1 E_2)} = \frac{P(E_2 | H_i) P(H_i | E_1)}{P(E_2 | E_1)}P(Hi∣E1E2)=P(E1E2)P(E2∣Hi)P(Hi∣E1)P(E1)=P(E2∣E1)P(E2∣Hi)P(Hi∣E1)
其中 P(E2∣E1)=P(E1E2)P(E1)=∑j=1nP(E2∣Hj)P(Hj∣E1)P(E_2 | E_1) = \frac{P(E_1 E_2)}{P(E_1)} = \sum_{j=1}^{n} P(E_2 | H_j) P(H_j | E_1)P(E2∣E1)=P(E1)P(E1E2)=∑j=1nP(E2∣Hj)P(Hj∣E1)
因此:
P(Hi∣E1E2)=P(E2∣Hi)P(Hi∣E1)∑j=1nP(E2∣Hj)P(Hj∣E1)P(H_i | E_1 E_2) = \frac{P(E_2 | H_i) P(H_i | E_1)}{\sum_{j=1}^{n} P(E_2 | H_j) P(H_j | E_1)}P(Hi∣E1E2)=∑j=1nP(E2∣Hj)P(Hj∣E1)P(E2∣Hi)P(Hi∣E1)
小结
- 条件概率定义为 P(E∣F)=P(EF)P(F)P(E|F) = \frac{P(EF)}{P(F)}P(E∣F)=P(F)P(EF)
- 概率的乘法规则:P(E1E2⋯En)=P(E1)P(E2∣E1)⋯P(En∣E1⋯En−1)P(E_1E_2\cdots E_n) = P(E_1)P(E_2|E_1)\cdots P(E_n|E_1\cdots E_{n-1})P(E1E2⋯En)=P(E1)P(E2∣E1)⋯P(En∣E1⋯En−1)
- 全概率公式:P(E)=∑i=1nP(E∣Fi)P(Fi)P(E) = \sum_{i=1}^{n} P(E|F_i)P(F_i)P(E)=∑i=1nP(E∣Fi)P(Fi)
- 贝叶斯公式:P(Fj∣E)=P(E∣Fj)P(Fj)∑i=1nP(E∣Fi)P(Fi)P(F_j|E) = \frac{P(E|F_j)P(F_j)}{\sum_{i=1}^{n} P(E|F_i)P(F_i)}P(Fj∣E)=∑i=1nP(E∣Fi)P(Fi)P(E∣Fj)P(Fj)
- 事件 EEE 和 FFF 独立当且仅当 P(EF)=P(E)P(F)P(EF) = P(E)P(F)P(EF)=P(E)P(F)
- 对于给定事件 FFF,P(E∣F)P(E|F)P(E∣F) 可以视为样本空间中事件 EEE 的概率函数
- 事件 E1E_1E1 和 E2E_2E2 关于 FFF 条件独立当且仅当 P(E1E2∣F)=P(E1∣F)P(E2∣F)P(E_1E_2|F) = P(E_1|F)P(E_2|F)P(E1E2∣F)=P(E1∣F)P(E2∣F)