多组学+机器学习+膀胱癌+分型+建模

发布于:2024-04-26 ⋅ 阅读:(19) ⋅ 点赞:(0)

图片

这是一个基于多组学+机器学习的分型建模文章,这里我们大概介绍一下,这篇文章做了啥

一、研究背景

1、尿路上皮癌是高度恶性的肿瘤,预后差,死亡率高

2、没有明显有效的治疗方法,多数患者在免疫治疗中无法受益,其原因可能是患者之间异质性

3、基于此,作者使用多组学数据与机器学习方法进行分析,以识别生物标志物,能够有效的改善患者预后,和免疫治疗的效果

过程:TCGA(mRNA+lncRNA+miRNA+甲基化)多组织整合构建分子亚型,并通过差异分析筛选预后相关的32个基因,通过10种机器学习的算法构建预后模型

二、数据准备

TCGA+IMvigor210+GEO(GSE13507,GSE31684,GSE32548,GSE32894,GSE48075,GSE48276)+ E-MTAB-1803的数据集(本文做的是膀胱癌,所以可以以IMvigor210作为训练集,大家在做的时候,需要注意,训练集样本量多)

三、方法和结果展示

分析流程

图片

1、多组学共识MUC预后相关分子亚型的构建

通过合并几套数据集,去批次,通过PCA查看去批次前后的各个数据集之间的分布

图片

通过MOVICS包对mRNA+lncRNA+miRNA+甲基化进行聚类,使用包中的getElites函数筛选出各组学中变化最大的前1500个基因(或突变频率最高的1500个基因),依次为特征,使用包中getMOIC函数中流程化的10种聚类算法: iClusterBayes, moCluster, CIMLR, IntNMF, ConsensusClustering, COCA, NEMO, PINSPlus, SNF和LRA,根据先前的研究指定将患者分为三型,获得每种算法的分型结果后,使用getConsensusMOIC函数整合10种分型的结果并最终生成一种稳健的分型(以下称为CSs)。图A是整合分型在多组学中的分型效果,图B展示了CSs以及10种分型的结果,图C的相关性热图也展示了各亚型内的相似性以及亚型间的不相关性,图D的KM曲线说明基于多组学和多模型构建的分型能够准确对患者预后进行分层。

图片

2、分子亚型之间功能的注释+免疫特征(分子景观)

通过收集一些关键的特征基因集(比如作者收集的与治疗反应相关以及膀胱癌相关的signature),通过ssGSEA的算法对三个亚型进行注释,结果发现CS2可能更倾向于目前公认的管腔样亚型,而CS3可能更倾向于基底样亚型(这个需要一定的背景去判断)。

接着分析了3个亚型在癌症染色质重塑相关的潜在调节因子和23个转录因子之间差异。进一步说明构建的CSs分型与染色质重塑相关

不同分子亚型关于免游已检查点,免疫浸润等等差异

图片

三个亚型之间进行了差异分析,选择了每一个亚型的 top20 个上调的基因作为特征绘制基因表达热图(图D),通过这20个基因作为一个分类器,对验证集分型,并绘制KM曲线(E),通过这20个基因的分类器使用NTP的算法构建计算分类的准确性。

图片

3、机器学习构建预后模型CMLS

基于10种机器学习组合算法对三个队列筛选特征基因构建风险模型(这里选择前面前面使用的各个亚型的top20的基因进行分析,可以在分析之前加入单因素cox分析),筛选出关键基因后,可以选择多因素计算系数建模,当然也可以通过Logistic回归方建模,单因素cox,多因素cox展示关键的预后情况,KM曲线

图片

4、CMLS与其他已经发表的模型做对比

在不同的数据集中比较作者筛选的特征基因构建的模型的c-index

图片

为了进一步说明模型的实用性,作者基于CMLS构建了诺莫图。校准曲线证明(图E),列线图的精度与实际情况相一致。决策曲线分析(DCA)显示,列线图对患者的临床获益明显高于单独使用CMLS(图F, G),且时间依赖的c指数进一步证明了列线图具有更好的预测性能(图H)

图片

5、CMLS 的免疫

TME相关的分析预测免疫评分,并比较高低组之间的差异

图片

ssGSEA分析,预测特征基因集的评分,并比较高低组之间的差异

图片

TMB+TNB(TCIA下载)的比较,巨噬细胞浸润相关性和比较,KM曲线

图片

6、CMLS 对免疫疗法反应预测能力

对IMvigor-210队列,作者评估了治疗 3 个月后患者的长期生存期差异,发现低分组显示出更好的预后效果(图A,B),图C表明在有反应组的CMLS得分低于无反应组。图D是基于TIP算法评估的抗肿瘤免疫7步骤活性在两组间的差异

图片

使用TIDE算法预测了免疫治疗反应(图E),高低CMLS组间有反应和无反应患者的比例,submap算法评估CMLS分组与抗PD1以及CTLA4疗效反应分组的一致性

图片

CMLS在另外三个免疫治疗队列中预测预后效能的评估,同样发现低CMLS的疗效可能更好。

图片

7、筛选潜在的治疗药物

GSEA富集分析发现高CMLS组患者的血管生成、EMT、缺氧等通路被明显激活,CTRP+PRISM(CCLE)计算药物的敏感性

图片

小结:

1、这篇文章使用一种新的聚类的方法构建分子亚型,并纳入和mRNA,miRNA,lncRNA,甲基化数据特征进行聚类,多组学分析,让整个结果更加准确

2、模型验证中纳入了NTP,我们网站之前使用的NTP的算法,基本上是通过两两进行对比,而在这次分析中,使用三种的亚型的敏感性比较,值得借鉴,但是原文筛选特征的基因的方法是使用差异基因做的。后面我们会对NTP的工具进行更新

3、多种机器学习的方法构建风险模型,做了两次模型的比较,第一次是机器学习算法的比较,第二次是与之前研究筛选到的特征基因进行比较,进一步突出作者筛选的特征基因,更具有研究价值

4、模型对于免疫治疗的具有非常好的预测作用

5、模型潜在治疗的药物的筛选