目录
1. WSI获取
引言:
本专栏以TCGA数据库为例,详细介绍TCGA数据库中特定癌症数据集WSI的选择与下载,以及下载后如何将WSI的存放位置进行批量化整理(提供Python代码)。
1.1 TCGA选择特定数据集并添加到购物车
TCGA数据库中要想下载数据,首先需要选择要下载的数据集,并将其添加到购物车中。
1.2 WSI下载
然后,将购物车中的数据进行下载。TCGA提供了两种下载方式:
- 命令行(Client)下载
【恒源智享云】在云服务器上批量下载WSIs-GDC Transfer Tool(client) - 可视化界面(UI)下载
【TCGA】批量下载WSIs(GDC Transfer Tool-UI)
【TCGA】GDC Transfer Tool-UI settings(踩坑)
1.3 WSI整理
下载后的WSI数据分布在不同的子文件夹中,而后续例如CLAM模型等需要将所有WSI置于一个文件夹下,才可以批量操作。因此,此处,先将所有WSI数据从不同的文件夹中移动到同一个文件夹下,Python代码如下:
小结:
至此,WSI数据就获取成功啦,接下来我们对WSI进行了解,以便更好地对WSI进行处理。
2. WSI相关知识
引言:
以QuPath软件为例,对WSI进行可视化展示,并列举Python代码,通过指令批量化显示每张WSI的基本信息。
小结:
至此,WSI数据就解读完成啦,接下来我们对WSI进行处理,以便输入到深度学习模型中。
3. WSI标注(可跳过)
引言:
以QuPath软件为例,介绍如何运用工具对WSI进行ROI圈画。并介绍标注文件的保存,标注文件的内容解读。
小结:
至此,WSI数据的人工标注就完成啦,此处生成的注释文件的处理代码,将在下一部分进行介绍。
4. WSI预处理
4.1 WSI组织分割以及Patch剪裁
本专栏将分别对无标注的WSI以及人工标注的WSI的Patch剪裁流程进行介绍,提供Python代码。
- 无标注的WSI:
本专栏提供两种方法:
1.1 histolab
【病理数据处理-histolab】使用histolab模块将WSI剪切成多个patch
1.2 CLAM
CLAM模型使用教程 - 有标注的WSI:
4.2 染色归一化
本专栏对staintools工具进行介绍,并提供批量化染色归一化的Python代码。
5. 特征提取
有的模型是直接使用特征向量作为深度学习模型的输入,因此,本专栏对CLAM模型的特征提取方式进行介绍,提供linux指令。