《Graph machine learning for integrated multi-omics analysis》

发布于:2025-08-10 ⋅ 阅读:(13) ⋅ 点赞:(0)

图神经网络(GNNs)的核心概念

GNNs是一种端到端的深度学习模型,能够直接处理图结构数据。论文介绍了以下几种主要GNN变体:

  • 图卷积网络(GCN):通过聚合邻居节点信息进行特征提取。

  • GraphSAGE:基于采样的图神经网络,适合大规模图数据。

  • 图注意力网络(GAT):利用注意力机制为不同邻居分配权重。

  • 变换器网络(TNN):结合变换器架构处理图数据。

  • 图自编码器(GAE)与变分图自编码器(GVAE):用于学习图的低维表示。

GNN在单细胞组学中的应用

论文详细探讨了GNN在以下单细胞组学领域的具体应用:

1. 单细胞转录组学(scRNA-seq)

  • 任务:包括数据插补(imputation)、聚类(clustering)和细胞类型识别(cell type identification)。

  • 方法

    • Graph2CNN、scGNN等:通过构建基因-基因或细胞-细胞图,结合GNN进行数据插补和聚类。例如,scGNN通过路径活动评分矩阵(pathway activity score matrices)整合基因和细胞信息,预测细胞类型。

    • GraphCN:结合自编码器和GCN,利用细胞相似性矩阵进行细胞类型识别。

  • 优势:GNN能够捕捉细胞间的相似性和基因交互关系,提高聚类和识别的准确性。

2. 单细胞表观遗传学(scATAC-seq)

  • 任务:细胞类型注释(cell type annotation)。

  • 方法

    • scGCN:通过参考scRNA-seq数据集,构建查询和参考数据集的混合图,利用三层GCN进行细胞类型注释。

    • HyGamo:通过并行GNN架构,从scRNA-seq数据中提取特征,改进对scATAC-seq的注释效果。

  • 挑战:scATAC-seq数据中峰值特征的转换可能丢失信息,HyGamo通过直接特征提取克服了这一问题。

3. 单细胞DNA甲基化

  • 任务:甲基化插补(methylation imputation)。

  • 方法

    • CapriCG:使用GNN构建细胞-位点(loci)的二分图,通过GAT学习节点间关系,预测缺失的甲基化值。

  • 意义:解决单细胞DNA甲基化数据的高稀疏性问题,提供更完整的细胞类型组成信息。

4. 细胞-细胞通信推断

  • 任务:推断细胞间交互。

  • 方法

    • Graph-DIFWAE:基于scRNA-seq数据构建加权图,利用皮尔逊相关系数和变分自编码器(VAE)推断细胞通信。

  • 应用:帮助理解细胞系统的生物学交互机制。

5. 单细胞多组学整合

  • 任务:整合多种组学数据(如scRNA-seq、scATAC-seq等),进行细胞类型解卷积(cell type deconvolution)、模态预测等。

  • 方法

    • CLUE、GNN-SC、STAC:利用GNN整合特征-特征或细胞-细胞图,实现多组学数据融合。

    • MamiGT、DeepMAPS:结合GAT和GTN,识别细胞群体并预测蛋白质丰度。

    • DGTs:利用伪空间转录组(pseudo-SRT)数据,通过GNN预测空间网格中的细胞类型比例。

  • 优势:GNN能够整合多模态数据,捕捉复杂的生物学关系。

6. 空间转录组学(SRT)

  • 任务:空间数据分析,细胞类型解卷积。

  • 方法:类似DGTs,利用空间图结构进行多尺度特征整合,预测细胞类型比例。

GNN变体的分布与应用趋势

  • 分布:论文通过饼图展示了六种GNN变体(GCN、GraphSAGE、GAT、TNN、GAE、GVAE)的应用比例。

  • 趋势:GNN在单细胞组学中的应用逐年增长,尤其在2022-2024年间,涉及转录组学、表观遗传学和多组学整合的任务显著增加。

结论与展望

  • 总结:GNN在单细胞组学分析中展现了强大潜力,特别是在处理复杂图结构和整合多模态数据方面。论文回顾了50种GNN-based方法的成功应用,涵盖细胞类型识别、数据插补、通信推断和多组学整合等任务。

  • 未来方向

    • 高分辨率数据:随着单细胞技术的发展,GNN将更广泛应用于高分辨率数据集。

    • 个性化医学:通过整合多组学数据,GNN可助力开发更全面的细胞行为模型,推动个性化医学的发展。

    • 预训练模型:在小规模任务特定数据集上微调预训练GNN模型,可显著提升性能。

资助与数据可用性

  • 资助:研究由国家自然科学基金(2027121、2022022号)和CAST青年精英科学家资助计划(2022QRRC001)支持。

  • 数据可用性:本研究未使用任何数据。


网站公告

今日签到

点亮在社区的每一天
去签到