“图”是什么?“图”从哪里来?为什么图数据库从鲜为人知到如今已广泛应用于金融、医疗、石油、媒体等诸多领域,并以爆炸式的速度繁荣发展?
我们的每一笔银行交易,每一通电话,每一份体检报告,甚至是每一次骑共享单车,每一次线上购物……这些与我们生活息息相关的背后还隐藏着另一个世界,一个基于数据建构的世界。
随着我们对网络的日益依赖,数据规模也在不断扩大,数据的复杂性也在不断提高,这也驱使数据科学家希望找到一种技术,一种能又快又好地发掘到数据中宝藏的技术,而图计算(图数据库)就是其中之一。
当然,如果你对这门技术还很陌生,但当你在使用Twitter、LinkedIn、Facebook,或是逛京东、淘宝的时候,“图”其实已经无处不在,它已经成为思考显示世界场景的方式——无怪于数据库专家孙宇熙就曾说,“图数据库技术是AI走向强人工AI的必经之路和重器。因为图数据库最大程度地还原了人的思维和思考方式。 ”
“图”的优点就是简单。如图所示,围绕“特斯拉”,我们不仅一下子想到电动车“特斯拉”和“马斯克”,还可以关联到发明家“特斯拉”以为围绕“特斯拉”所展开的一系列人、事、物等等。
亦如上图只是自然地、具实地反映了现实世界问题为图的一个例子。将其对应在“图”中,点就是一个个的人、事、物,然后将这些关键交叉点之间的连接表示为线,以体现其间的关联。当一个数据集含有大量的相互关联的项时,该数据集亦即组成了一个由相关事物组成的网络。
“图”的基本构成:
- 顶点:也被称作点、节点;
- 边:也称作关系,一般情况下一条边会连接两个顶点;
- 路径:表达的是一组相连的顶点与边的组合,多条路径可以构成一张网络,也称作子图;多张子图的全集则构成了一张完整的图数据集,称之为全图。
所以,基于“图”的高维表达能力,就能明白为什么当我们在使用社交网络时,系统能够向我们推荐出朋友的朋友的朋友;当购买几包猫砂后,系统还会推荐出宠物其他的周边用品;为什么银行能够实时判断出某2个账户之间的交易是否正常;在电力传输或通信网络中,系统为什么能够预测到某一个节点下线后,受到的波及和影响范围的程度?……
当然,在数据库的家庭中不只“图”一种,从广泛的角度来说,还有关系数据库等其他类型,但在数据库与AI的发展历程中,可以预见到图数据库与(实时)图计算技术不仅会占一席之地,更会成为一种主流的甚至终极的数据库,并赋能新一代的人工智能蓬勃发展。
是的,区别于传统数据库的表现力,“图”更能抽象出这些场景要体现出来的点和关系(边),从而快速高效地实现连接和处理。
亦如上文所讲,随着数据在量级和复杂级上的表现,“图”在提供强大、灵活且及时的数据洞察力方面成效卓著,且它的出类拔萃还在于零的突破。比如,我们常见的传统数据库能解决7道题,但剩下的3道题涉及到数据中的连接,它无法通过表连接来进行计算,于是就成了其无法破解的哥德巴赫;而这恰恰亦能让我们对“图”产生出强大而独特的理解……
图的独特之处:
- 架构发展的必然
- 企业发展的核心需求
- 图具备的高维独特能力
- 可解释AI(白盒化)
值得一提的是,一般开发人员大都会选择自己熟悉的工具,而不是最佳的工具,当然这不仅限于程序员。所以,笔者特别认同也非常欣赏Ricky(孙宇熙)常挂在嘴边的一句话——要避免限制性思维并提倡秉持终身学习的信念。是的,他做到了。最近翻阅《图数据库原理、架构与应用》,很难想象他是怎么在繁重的工作之余还完成了这么一部专著并填补了国内“图”研究上的空白的。当然,我相信还有很多人会像他一样,固然非常熟悉传统数据库或其他类数据库技术,但依旧愿意甚至深入地了解——图数据库在什么场景下如何能够成为更好的工具?!
多言不赘,让我们一起步入“图”的世界!(文/ 张三石 资深媒体人)
