本篇面向新入门的,转专业的,临床的,0基础的同学。学生信对于软件安装没问题了,环境搭建好了,开始了解一些数据挖掘的常见概念,以下是生信多组学数据挖掘四大金刚为首的转录组,我们先讲bulkRNA哈,下一步才做scRNA!!
还有很多未出现的名词,可以自行谷歌一下,或者看看b站、小红书、知乎、很多免费但是很好用的干货,有经费的建议报班1对1还有售后那种。
常见概念问题
以下为 bulkRNA-seq 初学者或项目中常见的基础问题,建议逐一搞清楚背后逻辑:
- 芯片数据与测序数据(microarray vs RNA-seq)有何区别?
- bulkRNA-seq 与 单细胞 RNA-seq 的根本差异是什么?
- GEO、TCGA、ArrayExpress 等数据库的用途与区别?
- Illumina、Agilent、Affymetrix 等测序/芯片平台有何不同?
- 什么是表达矩阵?FPKM、TPM、counts 有何不同?
- 上游分析 vs 下游分析分别指什么?
- limma 与 DESeq2 的差异和适用场景?
- 差异分析中常用的过滤标准(如 logFC、FDR)是什么?
- **批次效应(batch effect)**是如何产生的?如何处理?
- **临床信息文件(clinical/phenotype)**如何与表达矩阵对应?
- 如何根据 GPL 平台转换探针 ID 为 基因名?
- 富集分析中 GO / KEGG / GSEA 有何区别?
- 富集分析用基因集应如何准备?输入格式有何要求?
- 气泡图和柱状图分别适用于哪类富集结果展示?
- 常见可视化 R 包有哪些?(如 ggplot2、pheatmap、clusterProfiler)
- 什么是 log2(TPM+1) 或 logCPM 转换?为什么要 log 转换?
- 为什么差异分析需要建模?如何理解设计矩阵(design matrix)?
- 如何评估差异分析结果是否可信?(如 PCA、聚类图 等)
- 表达量低的基因是否需要过滤?常见的过滤标准是什么?
- 如果一个项目样本量很小,还能做差异分析吗?有哪些注意事项?
- **表达量归一化(normalization)**常见方法有哪些?分别适用于哪类数据?
- 如何进行样本聚类与可视化?聚类方法和距离公式有何差异?
- 如何设置合理的 contrast 对比组?如何解释 fold change 的方向?
- RNA-seq 数据是否适合做机器学习?有哪些前处理步骤?
- 什么是 表达谱可视化?常用图有哪些?如何美化?
- 如何区分技术重复与生物重复?差异分析中如何正确设置?
- **样本混杂因素(confounders)**有哪些?如何在建模中控制?
- 富集分析中的**背景基因集(background)**如何设置才合理?
- 如何从差异分析结果中筛选出具有生物学意义的核心基因?常用标准有哪些?
- bulkRNA-seq 能否用于预测临床结局(如生存分析、分型)?如何与临床变量结合?
实操演练模块
1. GEO 数据处理基础
- 数据集:GSE194331
- 样本量:119 个外周血 RNA-seq 样本
- 分组信息(病情分级):
- Mild AP(轻度):57 例
- Moderately-Severe AP(中度):20 例
- Severe AP(重度):10 例
- Healthy Controls(健康对照):32 例
- 平台编号:GPL16791(Illumina HiSeq 2500)
作业要求:
- 输出行为基因,列为样本的表达矩阵,txt和csv都可,基因名称需为symbol ID;
- 整理出一一对应的分组表格,第一列为样本名称,第二列为分组信息;
2. TCGA 数据下载与预处理
- 项目名称:TCGA-LUAD(肺腺癌)
- 数据类型:RNA-seq 原始计数(HTSeq - Counts)
- 样本来源:TCGA 数据门户(GDC)
- 样本类型:包含肿瘤组织(Tumor)和配对正常组织(Normal)
作业要求:
- 能在TCGA官网下载处理更好,这里用xena的数据也是可以的,GDC/TCGA都可
- 输出行为基因,列为样本的表达矩阵,txt和csv都可,基因名称需为symbol ID;
- 整理临床信息表格,包含性别、年龄、生存时间、生存状态、stage、T、M、N、是否治疗、是否转移
3. 多队列 GEO 数据整合与批次效应校正
- 数据集 1:GSE75037
- 样本数:83 对肺腺癌肿瘤与邻近非肿瘤组织(共 166 个样本)
- 平台:Illumina WG6-V3 expression arrays
- 数据集 2:GSE10072
- 样本数:58 个肺腺癌样本 + 49 个配对非肿瘤组织样本(共 107 个)
- 平台:Affymetrix HG-U133A Array
- 分析目标:合并两个芯片表达数据集,构建统一表达矩阵,并进行批次效应校正
作业要求:
- 两个分别的表达矩阵(标准化后,行为基因),合并后的统一表达矩阵(去批次效应)
- 分组信息表,包含样本名称、GSE号、肿瘤分组
- 校正前后 PCA 或者 聚类图
👆【图片仅供参考,与结果无关】👆
4. 差异表达分析与可视化
- 项目:TCGA-LUAD(肺腺癌)
- 样本:Primary Tumor 与 Solid Tissue Normal
- 数据类型:HTSeq-counts(推荐)或 FPKM/TPM(需说明转换方式)
- 分析目标:识别肿瘤与正常组织之间的差异表达基因,并进行可视化展示
作业要求:
- 差异分析结果表(包含完整表格、筛选fc/p值后)
- 差异热图、差异火山图
👆【图片仅供参考,与结果无关】👆
5. 富集分析与可视化展示
- 数据来源:第 4 步差异表达分析结果
- 分析目标:识别差异表达基因所涉及的功能通路(GO/KEGG)和富集趋势,并进行可视化展示
- 使用工具包:
clusterProfiler
、org.Hs.eg.db
、enrichplot
、ggplot2
作业要求:
- GO 富集结果表、KEGG 富集结果表
- GO(BP、MF、CC分组)和 KEGG 可视化图片,气泡图柱状图都可以,x 轴展示基因个数
👆【图片仅供参考,与结果无关】👆
📌 补充建议:每个小作业记得保存好自己的代码+真实数据+可视化图片,方便复现,以及后续优化自己的可视化形式与配色等。