在线绘制RNA-seq,microarray基因表达谱聚类热图heatmap

发布于:2022-12-10 ⋅ 阅读:(764) ⋅ 点赞:(0)

聚类热图是生物医学论文中最常见的一类图。一般情况下我们认为cluster(聚类)、 heatmap(热图)两个词表达的是同一个意思,往往相互替代。然而这两个词还是有区别的,cluster是数据处理,heatmap是数据展示。其过程是:用我们拿到的表达矩阵根据不同的聚类方法和不同的距离算法算出另外一个矩阵,然后对这个矩阵进行上色,以heatmap的形式展示出来,类似excel中的色阶功能。

dac71f51357c9c9fbae30d72dc484e73.jpeg

图1. 聚类热图

该图由树,颜色块矩阵,名字,colorbar和组说明5种元素构成。

1,打开绘图页面

首先,使用浏览器(推荐chrome或者edge)打开聚类热图绘制页面。左侧为常见作图导航,中间为数据输入框和可选参数,右侧为描述和结果示例。也可以在主页搜索框中搜索heatmap,找到绘图页面。

https://www.bioinformatics.com.cn/plot_basic_cluster_heatmap_plot_024

a9a41cc5bf345652684ce27d0e85e8ba.jpeg

图2.可视化绘图页面

2,示例数据

点击右侧“示例数据”链接下载excel格式的示例数据。

68eb4ed2962210a5627b1a161e6bc9c2.jpeg

图3. 输入数据示例

示例数据(仅供参考)为矩阵形式,行是基因,列是样品,其中:

第一行是样品分组,分组名可重复

第二行是样品名,样品名不可重复

第3+行是基因

行和列交叉的cell是每个基因在每个样品中的表达值或者其他值,例如质谱信号等,一般需要使用标准化后的值。对于fpkm,tpm等可以每个值加1,然后取log2;对于质谱等信号非常高的数据可以先取log10,再标准化。

注意:需要参考示例数据,将自己的数据在excel中整理成示例数据的样式,每个cell都需要有,表达值不能为空或者NA。

3,粘贴示例数据

直接复制示例数据中的A-G列数据,然后粘贴到输入框。

注意:不是拷贝excel文件,是拷贝excel文件里边的数据。另外粘贴到输入框后,格式乱了没关系,只要在excel中是整齐的就行。并且数据矩阵中不能有空的单元格,中文字符等。对于较大的数据,我们提供了上传txt文件的按钮。

841d49982b67bc1eccc7a8832284378e.jpeg

图4. 必需输入

4,修改参数,并提交

我们设置了图片尺寸、文字大小、颜色、聚类方法、字体等参数,基本能满足日常绘图使用。如需更高级的定制,请联系我们。

4bcbfd95d7f69f3aa6bab65a2c028d7b.jpeg

图5.颜色、字体等可调参数

5,提交出图

粘贴好输入数据,调整好参数(或者全部默认)后,点击提交按钮,几秒钟后,会在页面右侧出现预览图。我们提供了4种图片格式供下载使用,两种矢量图(pdf,svg)和两种标量图(600 dpi tiff和300 dpi png)。

4c97a4ee78682ee51e7f38f84cf6a08e.jpeg

图6.预览与下载

热图说明:

1)由于pheatmap参数众多,这里仅设置了一些常用的参数

2)颜色默认是红白蓝,可以根据喜好设置成红黑绿等颜色

3)参数“要显示的名字”可以控制是否显示基因名或者样品名。一般来说,当基因数少于50个时可以显示基因名;当样品数小于20个时,可以显示样品名。否则图的文字会重叠,不美观。

4)默认在所有样品中值一样的整行会删掉,这些行一般没意义。

5)默认当两个基因名字一样时,取其均值作为表达值。

6)函数中设置了回调函数(callback),默认组的顺序跟输入一致。若出图后,组的顺序变化,可以使用不同的距离方法和聚类算法进行调整,以达到固定组的顺序的目的。

7)由于聚类,所以会存在有些样品分组乱套的情况,这一方面跟数据本身有关,另一方面跟使用的算法有关,可以通过调整距离方法和聚类算法达到“分开”的目的。

8)当仅有两个样品时,请勿使用scale按钮

9)如果要完全保持基因或者样品的顺序,可以选择“不聚类”按钮。没有预览就没有出图,这时请参考示例数据,检查自己输入数据的格式。


遇到文字截断,需要修改字体、调整字体大小等,请参考科研作图实操:用inkscape编辑svg矢量图


微生信助力发文章,谷歌引用640+,知网引用480+
本文含有隐藏内容,请 开通VIP 后查看