TogoID - 生物医学数据库ID转换工具

发布于:2022-12-22 ⋅ 阅读:(399) ⋅ 点赞:(0)

Paper reading series -1

简介
在生物医学研究中,一些名称会随着时间发生变化,并且生物实体通常会有很多别名,另外还有一些未被命名的数据也需要准确区分。因此在各类生物医学数据库中,使用唯一ID表示数据非常重要。为了整合分析多个数据库的内容,ID转换非常有必要。比如将RefGene ID与Ensemble ID对应起来。

全面且准确的ID转换并不容易实现。这需要在数量和数据量都在不断增长的生命科学领域数据库中,准确提取并不断更新各个源数据库中的ID之间的关系。如果有一个方便可用的API,web应用开发可节省大量人力时间,且可帮助科研工作减少时间投入。

现有ID转换工具存在支持的数据库范围有限,难以加入新的ID转换,对应ID的生物意义不清晰,不提供可用API等问题。TogoID项目通过扩大数据库范围,定义本体明确描述ID之间关系,基于云托管的数据定期更新,构建了友好的web界面和API,满足了ID转换的各类需求。

支持的数据库
包含基因,转录本,蛋白,结构,化合物,信号通路,疾病和文献等48个数据库。但由于数据库ID形式多样,为了便于整合,切分为65个子数据库。
在这里插入图片描述
在这里插入图片描述

与已有ID转换工具比较
在6个维度上,TogoID是最全面的工具。

  • 支持更广泛的数据库
  • 提供API供批量转换调用
  • 跨多个数据库进行多步骤转换
  • 增加ID之间关系的语义表示
  • 可扩展支持的数据库
  • 性能稳定且可不断更新
    在这里插入图片描述

系统和方法
配置:开发者可在github通过发送pull request扩展支持的数据库范围。在配置文件中描述各类标签和ID。

本体:当需要多个步骤转换时,对应实体在源数据库,中间数据库和目标数据库中的种类并不相同,此时需要仔细查看。为了便于解释转换过程,TogoID使用OWL定义ID关系的本体,描述各种概念和它们之间的关系。共26个层级类表示数据库的种类,77个属性表示不同实体之间的关系。

数据更新过程:比较本地文件与数据库的更新日期和文件大小,一旦发生变化则自动更新。

系统架构:基于亚马逊云。

特点

  • 该项目可通过在github上提交pull
    request来扩展支持的数据库,如果你发现有重要的数据库没有收录覆盖,那么可以通过这种方式参与该项目的完善。这种方式可增强此ID转换工具的竞争力,而不像其他转换工具推,出后不能随着生物医学数据库的更新而更新,从而被逐渐淘汰。
  • 以前的ID转换工具只是单纯的进行ID转换,转换过程并不会增加新的信息。而TogoID通过新定义的本体描述不同数据库中的实体和它们之间的关系。当ID在多个数据库中转换时,可通过关系的描述发现新的知识以及之前因为没有清晰描述而被忽略掉的信息。下表分别是TogoID
    重新整理的数据库包含的实体类型和关系。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

使用
网页界面

可直接键入ID或上传ID列表,无需指定源数据库,系统可自动判断ID来自哪个数据库。当有多个可能的来源时,需要点选,然后右侧可显示目标关联数据库。

EXPLORE页面列出了所有可转换关联的数据库。如果需要经过多个步骤,涉及不同数据库才能转换,页面可显示转换过程。NAVIGATE可指定目标数据库显示。如下图所示,每个颜色标签都可点击展示详情并下载。

页面不仅展示源数据库和目标数据库,当有中间转换步骤时,可清晰显示实体之间的关系。比如Ensembl gene 和UniProt之间的关系为has gene product,而UniProt 与 GlyTouCan之间的关系为 is modified with,清楚的表示了多糖与蛋白之间是修饰关系。

在这里插入图片描述

不同的颜色块表示特定种类的数据库信息。

在这里插入图片描述

API
除了通过用户友好的网页界面使用,TogoID还提供了API可用于大规模编程查询或灵活地在各类应用中整合使用。比如在开发生物信息应用时,如果原本只支持Ensembl ID, 可通过TogoID的集成,就可增加对NCBI Gene ID或HGNC基因名称的支持。

参考
TogoID:https://togoid.dbcls.jp/
Ikeda S, Ono H, Ohta T, et al. TogoID: an exploratory ID converter to bridge biological datasets[J]. Bioinformatics, 2022.
《生信了》2022年9月


网站公告

今日签到

点亮在社区的每一天
去签到