一、EcoTyper框架:
1、计算机纯化:此步骤能够从大块组织转录组中预测细胞类型特异性基因表达谱。
Inpute:预测、插补,由已知基因型预测未知基因型并对缺失的数据进行补缺。
实现imputation的常用软件:
1. IMPUTE
2. Mach 1.0, Markov Chain Haplotyping
它由以下部分组成:计算机纯化概述、特征基质设计、细胞类型分数估计和表达纯化。
值得注意的是,如果已经有细胞类型特异性表达谱,无论是来自scRNA-seq、批量分选的转录组还是其他来源,都可以跳过此步骤。
EcoTyper的第一步是从体组织转录组中预测细胞类型特异性基因表达谱,默认情况下,EcoTyper使用CIBERSORTx。
作为输入,CIBERSORTx需要一系列优化的表达谱来区分每种感兴趣的细胞类型,通常称为标志矩阵“signature matrix”。signature matrix可以来源于单细胞或批量分选的转录组(bulk-sorted transcriptomes),并且应设计为涵盖特定组织类型内的主要谱系。
一旦生成并验证了signature matrix,则将CIBERSORTx应用于均匀处理的批量组织转录组数据集( a dataset of uniformly processed bulk tissue transcriptomes),以枚举signature matrix中每种细胞类型的频率。然后,这些估计值用于估算每个输入样本的细胞类型特异性基因表达谱。只有具有足够信号的基因才能归因每种细胞类型,从而最大限度地减少虚假表达估计对下游结果的影响。
以下公式和目标总结了EcoTyper使用的关键CIBERSORTx步骤:
标志矩阵(signature matrix)的构建:
为了对人类癌症中的 12 种主要细胞类型进行反卷积,于是采用分层策略连续应用了两个标志矩阵,每个特征矩阵都曾在实体瘤中验证过。
首先,使用 TR4 对上皮肿瘤中的主要细胞区室进行去卷积,TR4 是一种由上皮 (EPCAM)、内皮 (CD31)、成纤维细胞 (CD10) 和体免疫细胞 (CD45) 群体组成的特征矩阵,这些细胞是从 NSCLC 患者新鲜切除的手术肿瘤样本中分选出来的。
为了解析白细胞表型,他们采用了LM22,这是一种经过广泛验证的特征矩阵,由22个功能定义的人类造血细胞亚群组成。根据映射方案将LM22亚群聚合为B细胞,浆细胞,CD8 T细胞,CD4 T细胞,自然杀伤(NK)细胞,单核细胞/巨噬细胞,树突状细胞,肥大细胞和中性粒细胞。由于嗜酸性粒细胞在很大程度上检测不到,因此将其排除在进一步分析之外。
2、细胞状态发现:此步骤能够鉴定和定量细胞类型特异性转录状态。
它由以下部分组成:细胞状态发现、排名选择和细胞状态质量控制。
3、生态型发现:此步骤可以将细胞状态共同分配到多细胞群落(生态型)中。
4、细胞状态和生态型恢复:此步骤支持恢复外部表达数据集中的细胞状态和生态型。