目录
0、引言
最近想系统的学一下贝叶斯的工具,就开一个专题系统的记录一下学习的路径。废话不多说直接上知识点。
1、信念(Beliefs)
我们首先介绍一下信念
这个东西,这个概念在频率里很少被提及。但是他是学习贝叶斯会被提及到的一个概念。我们经常会用概率
来表示我们对未知量的刻画。其实信念这个概念和概率差不多,我们在本节的首要任务有两个,一什么信念,二搞清楚概率和信念之间的区别和联系、
在使用数学化的工具介绍信念之前,我们先定义几个集合。假设我们在抛掷一个筛子。
- F = {筛子点数小于等于5}
- G = {筛子点数小于等于2}
- H = {筛子点数为偶数}
下面我们引入信念函数Be()
,它可以把 F , G , H F, G, H F,G,H等事件映射成数字,数字越大,表示信念越大。讲到这里我们发现他和概率非常相似。我们给几个具体的描述,来描述信念函数:
- 如果 B e ( F ) > B e ( G ) Be(F)>Be(G) Be(F)>Be(G),我们说我们更坚定选择F的信念。
- 如果 B e ( F ∣ H ) > B e ( G ∣ H ) Be(F|H)>Be(G|H) Be(F∣H)>Be(G∣H),我们说再增加了H这个规则后,我们更加坚定选择F。
- 如果 B e ( F ∣ G ) > B e ( F ∣ H ) Be(F|G)>Be(F|H) Be(F∣G)>Be(F∣H),如果可以选择一种规则,我们更倾向于在G的规则下相信F。
我们介绍几个信念函数的公理(Axioms, 大部分认为信念函数应该具有的性质
):
A1. B e ( n o t H ∣ H ) ≤ B e ( F ∣ H ) ≤ B e ( H ∣ H ) Be(not H|H) ≤ Be(F|H) ≤ Be(H|H) Be(notH∣H)≤Be(F∣H)≤Be(H∣H)
A2. B e ( F 或 G ∣ H ) ≥ m a x { B e ( F ∣ H ) , B e ( G ∣ H ) } Be(F 或 G|H) ≥ max\{Be(F|H), Be(G|H)\} Be(F或G∣H)≥max{Be(F∣H),Be(G∣H)}
A3. B e ( G ∣ H ) Be(G|H) Be(G∣H) 和 B e ( F ∣ G 和 H ) Be(F|G 和 H) Be(F∣G和H)可以导出 B e ( F 和 G ∣ H ) Be(F 和 G|H) Be(F和G∣H)
A1表示我们在给定H的情况下对F的条件信念,其介于在给定H的条件下完全不相信 B e ( n o t H ∣ H ) Be(not H|H) Be(notH∣H)和完全相信 B e ( H ∣ H ) Be(H| H) Be(H∣H)之间。
A2表示我们信念不会随着我们增加可能性集合而减少。
A3有点复杂,怎么推导出F和G如何为真给定H,从H为真出发,你可以先决定G为真,如果是,那么F是否为真给定G和H。就可以得到结论。
我们们给出概率的公理化表示
P1 0 = P r ( n o t H ∣ H ) ≤ P r ( F ∣ H ) ≤ P r ( H ∣ H ) = 1 0 = Pr(not H|H) ≤ Pr(F|H) ≤ Pr(H|H) = 1 0=Pr(notH∣H)≤Pr(F∣H)≤Pr(H∣H)=1
P2 P r ( F ∪ G ∣ H ) = P r ( F ∣ H ) + P r ( G ∣ H ) 如果 F ∩ G = ∅ Pr(F ∪ G|H) = Pr(F|H) + Pr(G|H) 如果 F ∩ G = ∅ Pr(F∪G∣H)=Pr(F∣H)+Pr(G∣H)如果F∩G=∅
P3 P r ( F ∩ G ∣ H ) = P r ( G ∣ H ) P r ( F ∣ G ∩ H ) Pr(F ∩ G|H) = Pr(G|H) Pr(F|G ∩ H) Pr(F∩G∣H)=Pr(G∣H)Pr(F∣G∩H)
我们看到如果满足P1-P3一定会满足A1-A3.那么概率可以作为描述信念的一个工具。但是他们又是不同的。
我也找了几篇信念和概率的对比文章,帮助大家进一步了解这个概念。
参考一《趣学贝叶斯统计:量化》
参考二《用数据更新信念——如何用贝叶斯思维理解世界》
其中用数据更新信念——如何用贝叶斯思维理解世界
介绍了信念和贝叶斯公式,以及相关的概念。
2、条件独立(Conditionally Independent)
先介绍一下独立的定义。
定义2.1 (独立)
如果 P ( F ∩ G ∣ H ) = P ( F ∣ H ) P ( G ∣ H ) P(F\cap G |H)=P(F|H)P(G|H) P(F∩G∣H)=P(F∣H)P(G∣H),那么两个事件F和G独立条件独立关于H。
我们应该如何理解(条件)独立性呢。我们通过上述的概率公理P3以及条件独立的定义可以推导出如下的事实
P r ( F ∣ H ∩ G ) = P r ( F ∣ H ) Pr(F|H ∩ G) = Pr(F|H) Pr(F∣H∩G)=Pr(F∣H)
因此,条件独立性意味着 P r ( F ∣ H ∩ G ) = P r ( F ∣ H ) Pr(F| H ∩ G)= Pr(F| H) Pr(F∣H∩G)=Pr(F∣H)。换句话说,如果我们知道H为真,并且F和G在给定H的情况下条件独立,那么知道G是否成立不会改变我们对F的信念。
3、一些其他的简单的概念
在介绍一些新的概念之前,读者还应该自学一些概率论与数理统计的知识点,这里由于篇幅原因就不一一详细介绍,读者可以在任何一本概率论与数理统计的教材看到他们。这里列出一些学习清单,如果没有基础的同学可以去自行补充学习。
- 随机变量的定义和概念。包括常见的离散随机变量(二项分布、泊松分布和负二项分布等)、连续随机变量(正态分布、指数分布、伽马分布和卡方分布等)。
- 描述分布的工具。均值(mean or expectation,分布的质心)、众数(mode,大多数可能的值)、中位数(median,分布中间的值),分位数(quantiles)。
注:特别是,对于偏态分布(如收入分布),均值可能与“典型”样本值相差甚远。尽管如此,均值仍然是对分布位置的一种非常流行的描述。 - 在描述对分布离散程度还有一些量,如方差(variance)、散度( Divergence)、绝对中位差(Median Absolute Deviation, MAD)详情参考《利用 MAD 计算标准差:理论与实践》。
- 联合分布函数、条件分布和边缘分布。这些是贝叶斯推断的基础,要好好学习。
4、可交换性(Exchangeability)
假设我们被要求为三种不同的结果分配概率:
P ( 0 , 0 , 0 , 0 , 1 , 1 , 1 , 1 , 1 , 1 ) = ? P(0,0,0,0,1,1,1,1,1,1)=? P(0,0,0,0,1,1,1,1,1,1)=?
P ( 0 , 1 , 0 , 1 , 0 , 1 , 0 , 1 , 0 , 0 ) = ? P(0,1,0,1,0,1,0,1,0,0)=? P(0,1,0,1,0,1,0,1,0,0)=?
P ( 1 , 1 , 1 , 0 , 0 , 0 , 0 , 1 , 1 , 1 ) = ? P(1,1,1,0,0,0,0,1,1,1)=? P(1,1,1,0,0,0,0,1,1,1)=?
上述多元分布函数的输入都是6个1和4个0,这些分布的概率是否相等?为了深入讨论这个问题,下面我们给出可交换的定义。
定义4.1
(可交换,Exchangeable) 让 p ( y 1 , . . . , y n ) p(y_1, . . . , y_n) p(y1,...,yn) 是 Y 1 , . . . , Y n Y_1,..., Y_n Y1,...,Yn. 如果对所有的 { 1 , . . . , n } \{1, . . . , n\} {1,...,n} 的交换 π π π 满足 p ( y 1 , . . . , y n ) = p ( y π 1 , . . . , y π n ) p(y_1, . . . , y_n) = p(y_{π_1}, . . . , y_{π_n}) p(y1,...,yn)=p(yπ1,...,yπn) 的联合密度函数。那么 Y 1 , . . . , Y n Y_1, . . . , Y_n Y1,...,Yn 是可交换的。
下面我们给出一个重要的声明和证明。
定理4.1
如果 θ ∈ p ( θ ) θ ∈ p(θ) θ∈p(θ) 且 Y 1 , . . . , Y n Y_1,... ,Y_n Y1,...,Yn 在给定 θ θ θ的条件下独立同分布,则(在 θ θ θ的条件下), Y 1 , . . . , Y n Y_1,... ,Y_n Y1,...,Yn 是可交换的。
证明4.1
假设 Y 1 , . . . , Y n Y_1,...,Y_n Y1,...,Yn 在给定某个未知参数 θ θ θ 的情况下条件独立同分布。则对 { 1 , . . . , n } \{1,...,n\} {1,...,n} 的任意置换 π π π 和任意值集 ( y 1 , . . . , y n ) (y_1, ...,y_n) (y1,...,yn)
5、de Finetti’s theorem
在上面的讨论中,尤其是定理4.1的结论,我们发现了 Y i , i = 1 , . . . , n Y_i, i = 1, ..., n Yi,i=1,...,n是独立的并且 θ ∼ p ( θ ) \theta \sim p(\theta) θ∼p(θ)可以推出 $Y_i, i = 1, ..., n$是可交换的
,那么反过来是否成立,若 Y i , i = 1 , . . . , n Y_i, i = 1, ..., n Yi,i=1,...,n是可交换的 ,能否推出我们的模型成立,那么de Finetti’s theorem
就是回答这个问题的。
定理 5.1
对所有的 i ∈ { 1 , 2 , . . . } i \in \{1,2,...\} i∈{1,2,...}, Y i Y_i Yi是对于所有的交换 π π π 是可以换的,即 p ( y 1 , . . . , y n ) = p ( y π 1 , . . . , y π n ) p(y_1, . . . , y_n) = p(y_{π_1}, . . . , y_{π_n}) p(y1,...,yn)=p(yπ1,...,yπn),那么我们的模型可以被写成
p ( y 1 , . . . , y n ) = ∫ { ∏ i = 0 n p ( y i ∣ θ ) ) } p ( θ ) d θ . p(y_1, . . . , y_n) = \int \{ \prod \limits_{i=0}^n p(y_i|θ)) \} p(θ) dθ. p(y1,...,yn)=∫{i=0∏np(yi∣θ))}p(θ)dθ.
其中先验和抽样模型依赖于信念模型的形式 p ( y 1 , . . . , y n ) p(y_1, . . . , y_n) p(y1,...,yn)。
6、写在最后的话
今天的学习到此结束,明天我们将学习贝叶斯估计的单参数模型。