1. 安装软件
为了进行单细胞测序数据分析,需要安装一系列专业的软件工具。以下是一些常用的软件及其安装方法:
1.1 Cell Ranger 下载安装(需注册)
Cell Ranger 是 10x Genomics 提供的官方数据分析软件,它支持从原始测序数据(FASTQ 或 BCL 格式)到基因表达矩阵的生成,并提供聚类、降维等分析功能。
- 访问下载地址:
- Cell Ranger 官方下载页面
- 您需要注册账号并登录才能下载。
三种下载方式
curl -o cellranger-9.0.1.tar.xz "https://cf.10xgenomics.com/releases/cell-exp/cellranger-9.0.1.tar.xz?Expires=1747586436&Key-Pair-Id=APKAI7S6A5RYOXBWRPDA&Signature=XkJhGkGvdyxcIIVO6RZpQH2kKThwPkG0vxG6HWR5~Xx5x-OBs-V-gMzDrcwEIqqw8nQUD8V3X4vtDZmpDBJuypuJ00mDi--9zQ70VTXnFvffe0w6bPV-YuQsdmXfN4zI6rA751DCG7blReDDPRgftXlYxTW6-wyryidmFiP3ZQwq6a2qKCB9ZwzSb1hNJmIbsGM21ebMjyqxqMBxL04MxBTT2C33-Ie3EtB2tH40EJLAPfD3VMzTxwHU7if-bZ08Z~Dr6TKx-12gkN8uOPvJsKiLLqa27PO6OijgzD3QKvKIXF~eLQRQMyE035Nz7Xry9cZn7r80ZyLj~v5zp7rrUA__"
tar -xvf cellranger-9.0.1.tar.xz
export PATH=/public/home/2022099/public_software/cellranger/cellranger-9.0.1:$PATH
#输出如下
cellranger
cellranger cellranger-9.0.1
Process 10x Genomics Gene Expression, Feature Barcode, and Immune Profiling data
Usage: cellranger <COMMAND>
......
安装步骤:
- 访问上述链接,注册账号并登录。
- 根据操作系统选择合适的版本下载。
- 解压下载的文件,并按照安装说明进行安装。
- 安装完成后,可以通过命令行运行
cellranger --version
来验证安装是否成功。
1.2 Loupe Browser 下载(需注册)
Loupe Browser 是 10x Genomics 提供的可视化工具,用于查看和分析 Cell Ranger 生成的结果文件(如 .cloupe
文件)。
访问下载地址:
- Loupe Browser 官方下载页面
- 您需要注册账号并登录才能下载。
安装步骤:
- 访问上述链接,注册账号并登录。
- 根据操作系统选择合适的版本下载。
- 安装完成后,启动 Loupe Browser 并按照提示进行配置。
1.3 bcl2fastq 不好下,一般返回的是fastq,也不需要下
bcl2fastq 是 Illumina 提供的软件,用于将 BCL 格式的测序数据转换为 FASTQ 格式,这是单细胞测序数据分析的前置步骤。
访问下载地址:
安装步骤:
- 访问上述链接,下载对应版本的软件。
- 解压下载的文件,并按照安装说明进行安装。
- 安装完成后,可以通过命令行运行
bcl2fastq --version
来验证安装是否成功。
1.4 其他软件
除了上述软件,还可能需要安装一些其他工具,例如用于比对的 STAR、用于定量的 featureCounts 等。可以通过以下命令安装这些工具(使用 Conda 环境管理工具):
mamba install -y star featurecounts samtools r-seurat umi_tools
2. 下载参考序列
为了进行单细胞测序数据分析,需要使用参考基因组。参考基因组提供了基因组的背景信息,这对于比对测序数据和定量基因表达至关重要。10x Genomics 提供了针对不同物种的参考基因组,可以直接用于 Cell Ranger 分析。
2.1 访问下载地址
- 您可以通过以下链接访问 10x Genomics 参考基因组下载页面:
2.2 下载参考基因组
- 人类参考基因组(GRCh38):
- 您可以通过以下命令下载人类参考基因组(GRCh38):
curl -O "https://cf.10xgenomics.com/supp/cell-exp/refdata-gex-GRCh38-2024-A.tar.gz"
- 您可以通过以下命令下载人类参考基因组(GRCh38):
- 小鼠参考基因组(GRCm39):
- 您可以通过以下命令下载小鼠参考基因组(GRCm39):
curl -O "https://cf.10xgenomics.com/supp/cell-exp/refdata-gex-GRCm39-2024-A.tar.gz"
- 您可以通过以下命令下载小鼠参考基因组(GRCm39):
- 大鼠参考基因组(mRatBN7.2):
- 您可以通过以下命令下载大鼠参考基因组(mRatBN7.2):
curl -O "https://cf.10xgenomics.com/supp/cell-exp/refdata-gex-mRatBN7-2-2024-A.tar.gz"
- 您可以通过以下命令下载大鼠参考基因组(mRatBN7.2):
2.3 解压下载的文件
- 下载完成后,您需要解压缩下载的文件到指定目录。这通常可以通过以下命令完成:
tar -xzf refdata-gex-GRCh38-2024-A.tar.gz -C /path/to/installation/directory
- 请将
/path/to/installation/directory
替换为您希望解压缩文件的实际路径。
- 请将
3. 自建参考序列
对于非模式物种或者当需要特定版本的参考基因组时,研究人员可能需要自己构建参考基因组。以下是构建参考基因组的一般步骤:
3.1 斑马鱼参考基因组构建
以斑马鱼(zebrafish)为例,说明如何构建参考基因组:
下载基因组序列:
wget http://ftp.ensembl.org/pub/release-105/fasta/danio_rerio/dna/Danio_rerio.GRCz11.dna.primary_assembly.fa.gz gunzip Danio_rerio.GRCz11.dna.primary_assembly.fa.gz
这一步下载斑马鱼的基因组序列。
下载GTF文件:
wget http://ftp.ensembl.org/pub/release-105/gtf/danio_rerio/Danio_rerio.GRCz11.105.gtf.gz gunzip Danio_rerio.GRCz11.105.gtf.gz
这一步下载斑马鱼的GTF(Gene Transfer Format)文件,它包含了基因的注释信息。
过滤GTF文件:
cellranger mkgtf Danio_rerio.GRCz11.105.gtf Danio_rerio.GRCz11.105.filtered.gtf --attribute=gene_biotype:protein_coding
使用Cell Ranger 的
mkgtf
命令过滤GTF文件,只保留编码蛋白的基因。构建参考序列:
cellranger mkref --genome=Danio_rerio --fasta=Danio_rerio.GRCz11.dna.primary_assembly.fa --genes=Danio_rerio.GRCz11.105.filtered.gtf
使用Cell Ranger 的
mkref
命令构建参考序列。
3.2 猕猴基因组构建
对于猕猴(Rhesus macaque)等其他物种,步骤与斑马鱼类似,需要下载对应的基因组序列和GTF文件,然后进行过滤和构建参考序列。
3.3 大鼠参考基因组构建
对于大鼠(Rattus norvegicus)等物种,同样的流程适用。需要下载大鼠的基因组序列和GTF文件,过滤GTF文件,最后构建参考序列。
4. 下载练习数据
为了熟悉单细胞测序数据分析流程,可以使用10x Genomics提供的练习数据。这些数据通常来自已发表的文章,可以直接用于学习和练习。
4.1 访问下载地址
- 您可以通过以下链接访问10x Genomics数据下载页面:
4.2 下载练习数据集
- 练习数据集通常包括原始测序数据(FASTQ格式)、参考基因组以及分析结果文件(如
.cloupe
文件)。 - 您需要注册并登录10x Genomics网站,然后根据研究类型、试剂版本和流程版本筛选并下载所需的数据集。
4.3 下载示例
以下是下载练习数据的示例命令:
# 下载原始测序数据(FASTQ格式)
wget https://cf.10xgenomics.com/samples/cell-exp/3.0.0/pbmc_1k_v3/pbmc_1k_v3_fastqs.tar
# 下载比对排序后的BAM文件
wget https://cf.10xgenomics.com/samples/cell-exp/3.0.0/pbmc_1k_v3/pbmc_1k_v3_possorted_genome_bam.bam
# 下载分析结果文件(.cloupe格式)
wget https://cf.10xgenomics.com/samples/cell-exp/3.0.0/pbmc_1k_v3/pbmc_1k_v3_molecule_info.h5
wget https://cf.10xgenomics.com/samples/cell-exp/3.0.0/pbmc_1k_v3/pbmc_1k_v3_filtered_feature_bc_matrix.h5
4.4 数据解压缩
- 下载完成后,您可能需要解压缩下载的文件。这通常可以通过以下命令完成:
tar -xvf pbmc_1k_v3_fastqs.tar
- 这将解压FASTQ文件,使其可用于后续分析。
4.5 准备分析环境
- 确保您已经安装了所有必要的软件,如Cell Ranger、Loupe Browser等。
- 将下载的数据放置在合适的目录中,准备进行分析。
5. 单细胞学习案例
为了更好地掌握单细胞测序数据分析,参考一些在线教程和案例是非常有帮助的。以下是一些推荐的学习资源:
5.1 单细胞公开课
- Single Cell Course 提供了一个全面的单细胞测序数据分析教程,适合初学者和有经验的研究人员。
- 网址:Single Cell Course
- 这个课程涵盖了从基础到高级的单细胞分析技术,包括数据预处理、分析和可视化。
5.2 Cell Ranger 案例
- Getting Started with Cell Ranger 是一个实用的教程,指导如何使用 Cell Ranger 软件进行数据分析。
- 网址:Cell Ranger 教程
- 这个教程详细介绍了 Cell Ranger 的安装、使用和结果解读。
5.3 10x Genomics 官方教程
- 10x Genomics 官方网站提供了丰富的文档和教程,帮助用户理解其产品和分析流程。
- 网址:10x Genomics Support
- 官方支持页面包含了软件下载、安装指南、分析流程和常见问题解答。
5.4 Seurat 教程
- Seurat 是一个流行的单细胞分析 R 包,它的文档提供了如何使用 Seurat 进行高级分析的指南。
- 网址:Seurat 文档
- Seurat 文档详细介绍了如何进行数据导入、预处理、分析和可视化。
5.5 单细胞最佳实践
- Single Cell Best Practices 是一个GitHub仓库,包含了单细胞分析的最佳实践和教程。
- 网址:Single Cell Best Practices
- 这个资源提供了一系列的分析脚本和案例,帮助用户理解单细胞分析的各个步骤。
5.6 其他资源
- Seurat 社区:Seurat 用户和开发者社区,提供了许多有用的讨论和教程。
- Biostars:一个科研人员评价和讨论生物信息学工具的平台,上面有许多关于单细胞测序工具的讨论。
- ResearchGate:一个科研社交网络,用户可以在这里找到相关的研究论文、数据集和讨论。