高斯场(GFs)

发布于:2024-07-10 ⋅ 阅读:(133) ⋅ 点赞:(0)

1. 高斯过程的计算瓶颈及解决方法

高斯过程的计算瓶颈:尽管高斯过程从分析和实践的角度来看都很方便,但计算问题一直是一个瓶颈。

  • 这是由于因子分解稠密的 n × n n×n n×n(协方差)矩阵的一般成本为 O ( n 3 ) O(n^3) O(n3)
  • 尽管当今的计算能力处于历史最高水平,但趋势似乎是维度 n n n 总是被设置得比给出合理计算时间的值稍高一些。
  • 层次贝叶斯模型的日益普及使得这个问题更加重要,因为“重复计算(如基于模拟的模型拟合)可能非常慢,甚至不可行”,这种情况通常被非正式地称为“大 n n n 问题”。

解决方法:有几种方法可以尝试克服或避免“大 n n n 问题”:

  • 谱表示法的似然估计:利用离散傅里叶变换计算估计(功率)谱,并从中计算对数似然。适用于直接观察到的(接近)规则格子上的平稳高斯过程。
  • 顺序表示的近似似然函数:通过顺序表示构建近似似然函数,并简化条件集合。相似的方法也适用于计算条件期望(克里金法)。
  • 低秩高斯模型上的精确计算:在简化的低秩高斯模型上进行精确计算。
  • 协方差截断:将协方差矩阵的部分元素置零以加快计算速度。稀疏模式将取决于高斯过程的范围。

格子方法将高斯过程替换为高斯马尔可夫随机场(GMRF)。被认为在潜力上优于协方差截断方法。

2. 高斯场(GFs)

高斯场(GFs)在空间统计学中扮演着主导角色,尤其是在传统的地统计学领域,并且是现代层次空间模型中的重要组成部分。GFs是少数几种具有明确且可计算的归一化常数的适当多元模型之一,此外还具有良好的解析特性。

2.1. 高斯场的定义

在定义域 D ⊂ R d \mathcal D \subset \mathbb{R}^d DRd 上,令 s ∈ D s\in \mathcal D sD, X s X_s Xs是一个连续索引的高斯场 是指对于任意有限集合 { x ( s i ) } \{ x(s_i) \} {x(si)},它们的联合分布是多元高斯分布。

在大多数情况下,高斯场通过使用均值函数 μ ( ⋅ ) \mu(\cdot) μ() 和协方差函数 C ( ⋅ , ⋅ ) C(\cdot, \cdot) C(,) 来指定,其中均值为 μ ( s ) = ( μ ( s i ) ) \mu(s) = (\mu(s_i)) μ(s)=(μ(si)),协方差矩阵为 Σ = ( C ( s i , s j ) ) \Sigma= (C(s_i, s_j)) Σ=(C(si,sj))

  • 协方差函数通常只是“两个位置”相对位置的函数,这种情况下,它被称为平稳的。
  • 如果协方差函数仅依赖于位置之间的欧几里得距离,那么它是各向同性的。

协方差函数正定的限制和Bochner定理:由于常规协方差矩阵是正定的,因此协方差函数必须是正定函数。这一限制使得“发明”以解析形式表达的协方差函数变得困难。在这种情况下,可以使用Bochner定理,因为它表征了 R d \mathbb R^d Rd中所有连续的正定函数。

2.2. 评价

2.2.1. 特点和优势

离散索引的高斯场 x x x 是一个高斯马尔可夫随机场(GMRF),其特点和优势如下:

  1. 完整条件分布:GMRF 的完整条件分布 π ( x i ∣ x − i ) , i = 1 , … , n \pi\left(x_i \mid \mathbf{x}_{-i}\right), i=1, \ldots, n π(xixi),i=1,,n 仅依赖于每个位置 i i i 的一组邻居 ∂ i \partial i i 。一致性要求意味着如果 i ∈ ∂ j i \in \partial j ij ,则 j ∈ ∂ i j \in \partial i ji
  2. 精度矩阵 Q Q Q:计算上的提升源于精度矩阵 Q Q Q (协方差矩阵的逆矩阵) 的零元素模式直接与邻居的概念相关联。即 Q i j ≠ 0 ⇔ i ∈ ∂ j ∪ j Q_{i j} \neq 0 \Leftrightarrow i \in \partial j \cup j Qij=0ijj
  3. 马尔可夫链蒙特卡罗采样:用于马尔可夫链蒙特卡罗采样的算法将反复从简单的完整条件分布中更新。这在很大程度上解释了近年来 GMRF 的流行。
  4. 快速数值算法:GMRF 允许快速的直接数值算法 (Rue, 2001)。矩阵 Q Q Q 的数值分解可以通过使用稀疏矩阵算法以典型的 O ( n 3 / 2 ) O\left(n^{3 / 2}\right) O(n3/2) 成本完成,适用于二维 GMRF。
  5. 计算特性:GMRF 具有非常好的计算特性,这在贝叶斯推断方法中非常重要。通过与嵌套积分拉普拉斯近似(Rue 等人,2009)的链接,这些特性得到了进一步增强,使得对潜在高斯过程模型的贝叶斯推断快速且准确。

2.2.2. 限制

尽管GMRF具有非常好的计算特性,但当前基于GMRF的统计模型相对简单,尤其是当应用于区域或县的数据时。主要原因有以下几点:

  1. 精度矩阵参数化的困难:
  • 目前没有好的方法来参数化GMRF的精度矩阵,以实现预定义的点间相关性行为并控制边际方差。
  • 从矩阵的角度来看,这是因为必须构造一个正定的精度矩阵,以获得其逆矩阵作为正定的协方差矩阵。因此,适当协方差矩阵的条件被基本上等价的稀疏精度矩阵的条件所取代。
  • 因此,通常会采取简化的方法,例如让 Q i j Q_{i j} Qij 与站点 i i i j j j 之间的倒数距离相关;然而,更详细的分析表明,这种方法并不是最佳的,并且可能产生意外的效果。
  1. 简单邻域的限制:
  • 仅使用简单邻域,尚不清楚有用的GMRF模型的类有多大。
  • 这里的复杂问题是全局正定性约束,并且这种约束如何影响完整条件分布的参数化可能并不明显。

2.2.3. 应用

Rue 和 Tjelmeland(2002)在实证上证明,GMRFs 可以紧密逼近地统计学中常用的大部分协方差函数。他们建议将GMRFs作为计算上的替代品,例如用于克里金插值(Hartman 和 Hössjer,2008)。他们的方法存在几个缺点:

  • 将GMRFs拟合到GFs仅限于规则格子(或环面)。
  • 拟合本身需要预先计算一组离散的参数值(如平滑度和范围),使用耗时的数值优化。

尽管有这些概念验证的结果,几位研究人员在这一想法上进行了后续研究,但在方法论上并未取得显著进展。不过,该方法已显示出在时空模型中也很有用。

2.3. 方法总结

到目前为止的讨论揭示了一种处理大 n 问题的建模或计算策略,看起来是一个比较好的方法。

  • (a) 使用一组位置 { s i } \{s_i\} {si} 上的高斯场(GF)进行建模,构建具有协方差矩阵 Σ Σ Σ 的离散化高斯场。
  • (b) 找到一个具有本地邻域和精度矩阵 Q Q Q 的高斯马尔可夫随机场(GMRF),以最佳方式表示 GF,即 Q − 1 Q^{-1} Q1 在某种范数下接近 Σ Σ Σ。(我们故意使用“表示”而不是“近似”。)
  • ( c) 使用 GMRF 表示进行计算,采用适用于稀疏矩阵的数值方法。

这种方法依赖于几个假设。首先,GF 必须是这样一种类型,以至于存在一个具有本地邻域的 GMRF,能够足够准确地表示它,以维持参数和结果的解释。其次,我们必须能够从 GF 中计算出 GMRF 表示,在任意位置的集合上速度足够快,以便与直接处理 GF 相比实现显著加速。

本文的目的是证明,在 Rd 中具有 Matérn 协方差函数的某些 GF 类型确实可以满足这些要求,其中 GMRF 表示是明确可用的。

  • 尽管这些结果乍看起来似乎有所限制,但它们涵盖了空间统计学中最重要和最常用的协方差模型;参见 Stein (1999) 第14页,该文详细的理论分析得出结论:“使用 Matérn 模型”。

GMRF 表示可以通过使用某种随机偏微分方程(SPDE)来明确构造,当由高斯白噪声驱动时,解是具有 Matérn 协方差函数的 GF 。解是一个基函数表示,其中包含分段线性基函数和由域的一般三角剖分确定的具有马尔可夫依赖性的高斯权重


网站公告

今日签到

点亮在社区的每一天
去签到