论文作者:李钊、王鑫*、赵军、郭文斌、李建新;笔记整理:陈子睿,天津大学博士生,研究方向为知识图谱与大语言模型;
项目链接:https://github.com/LZ-LAB/HyCubE
论文链接:https://ieeexplore.ieee.org/document/10845179
摘要
知识超图嵌入模型由于其固有的复杂语义信息,通常计算量很大。然而,现有的工作主要集中在提高知识超图嵌入的有效性上,使得模型架构更加复杂和参数冗余。如何在模型有效性和效率之间取得较优平衡是知识超图嵌入模型所需要的,也是具有挑战性的。本文提出一种端到端高效的知识超图嵌入模型HyCubE,该模型设计一种新颖的3D循环卷积神经网络和交替掩码堆栈策略,全面增强知识超图特征信息的交互和提取能力。更多地,HyCubE通过自适应调整3D循环卷积层结构来高效处理不同元数的多元知识组,从而更好地平衡有效性和效率。此外,HyCubE还采用知识超图1-N多元线性评分方法,进一步提高模型的训练效率。最后,在所有数据集上的广泛实验结果表明,HyCubE模型始终优于最先进的基线,所有指标平均提升8.22%,最大提升33.82%。与此同时,HyCubE的速度比最新基线平均快6.12倍,GPU内存使用率降低52.67%,参数数量减少85.21%。
方法论
HyCubE的总体框架,如图1所示。该模型的所有核心组件都旨在增强模型特征交互能力,挖掘潜在的深层复杂结构特征信息。与此同时,HyCubE特别关注知识超图嵌入的有效性和效率之间更好的权衡。
图1:HyCubE模型整体架构图
特征交替掩码堆叠
首先,我们将n元关系和实体的初始嵌入向量重塑为二维嵌入矩阵,以增加特征信息交互程度,更好地进行卷积运算。知识超图中每个知识元组的n元关系和实体的二维重塑嵌入定义为:
为增强特征交互和更好地执行3D卷积嵌入,HyCubE将n元关系和实体的二维重塑嵌入堆叠成3D特征张量立方体。受大语言模型的掩码机制启发,HyCubE对预测实体(缺失实体)进行掩码。此外,我们设计一种具有特征交互增强的交替掩码堆叠策略,构建一个n元知识元组3D特征张量立方体,定义为:
3D循环卷积嵌入
HyCubE提出一种新颖的3D循环卷积神经网络,其具有强大的非线性深度特征建模能力,以进一步提高知识超图特征交互和提取能力,定义为:
上式中3D特征张量立方体经过3D循环填充后,定义为:
如前所述,HyCubE总是在模型有效性和效率之间寻求更好的权衡,关键是构建一个新的端到端知识超图嵌入体系结构。如图2所示,与传统知识超图嵌入架构重复冗余的特征映射过程相比,端到端架构可以通过一次映射完成n元知识元组的高效嵌入。此外,端到端架构可以实现关系和所有实体的嵌入,进一步增强结构特征的交互程度,有助于提高知识超图嵌入的性能。然而,知识超图由大量不同的知识元组组成,知识元组的元数通常是不同的(即不同元数知识元组的n元关系包含不同数量的实体,n是一个变量),这使得为知识超图构建端到端的高效嵌入体系架构变得极其困难。
图2:知识超图的传统嵌入与端到端嵌入对比示意图
本文提出的3D循环卷积神经网络具有更灵活的特征嵌入维度,为设计知识超图的端到端嵌入体系结构提供了良好的技术基础。具体而言,我们通过在结构特征交互维度(深度维度)上约束关系和实体的循环填充操作,优化每个n元知识元组的3D循环填充特征张量立方体的构建。这种优化操作可以为HyCubE实现端到端的高效知识超图嵌入奠定基础,并进一步减少冗余模型参数的数量。此外,为实现HyCubE的端到端高效嵌入架构,3D循环卷积神经网络的深度维度与3D循环填充特征张量立方体的深度自适应匹配。因此,HyCubE可以同时在知识超图中嵌入不同元数的n元知识组,而不需要其他方法的n元知识组分解和求和等冗余操作。3D循环卷积后得到的特征映射为:
为保证模型训练的效率,我们使用3D池化层提取显著特征,减少模型参数,减轻过拟合。3D最大池化层为:
在卷积和池化层之后,将特征映射拼接和拉平。最后,通过全连接层输出一个d维向量。
模型训练
在二元关系知识图嵌入中,1-N评分策略已被证明可以提高模型训练的速度。
受此启发,我们将其扩展为知识超图嵌入的1-N多线性评分方式,用于进一步提高HyCubE的模型训练效率。具体而言,我们将知识超图中的每个实体视为候选预测实体集,并使用每个实体嵌入的输出特征向量来计算知识元组的可信度分数,具体为:
基于上述评分函数,我们开发模型的训练损失和学习目标。在学习过程的每次迭代中,从知识超图数据集中选择一批正元组。与其他最先进的工作一样,有必要在负面实例上训练所提出的模型。为此,我们设计一种知识超图嵌入的负采样策略。具体来说,对于每个正(真)元组,通过用N个随机实体替换元组中的每个实体来生成一组负样本。
HyCubE使用mini-batch随机梯度下降算法进行训练,使用AdaGrad用于调整学习率,使用瞬时多类对数损失函数:
模型分析和变体
本文提出的交替掩码堆叠和3D循环填充策略通过增加关系和实体特征交互的程度和感受野来提高知识超图嵌入的有效性。这些策略的有效性很容易通过一些下游任务和消融研究得到验证。然而,一种基于3D循环卷积神经网络的新型嵌入架构可以提高嵌入的有效性和效率,但其对知识超图嵌入的性能增强效果难以直接验证。因此,我们提出HyCubE的2D变体版本作为直接比较基线模型。此外,为缓解知识超图嵌入模型训练过程中梯度消失的问题,我们提出HyCubE的3D残差增强版本。
实验
在JF17K、WikiPeople和FB-AUTO三个常用基准数据集上进行混合元数知识超图链接预测实验。对从JF17K和WikiPeople中提取的具有3、4元数的四个数据子集,即JF17K-3、JF17K-4、WikiPeople-3和WikiPeople-4进行固定元数知识超图链接预测实验。具体数据描述描述信息,如表1所示。
表1:数据集信息
混合元数知识超图链接预测实验结果,如表2所示。实验结果证明我们所提模型的有效性,在混合元数知识超图嵌入这一核心任务上始终优于所有基线方法,在所有指标上比最佳基线平均提高9.13%,最大提高33.82%。固定元数知识超图链接预测实验结果,如表3所示。实验结果证明我们所提模型的有效性,始终优于所有基线,在所有指标上的平均改进为7.30%,最大改进为15.45%。
表2:混合元数知识超图链接预测实验结果
表3:固定元数知识超图链接预测实验结果
一个优秀的知识超图嵌入模型必须在有效性和效率之间取得平衡,这对于实际和大规模数据集的应用和推广至关重要。混合元数和固定元数模型效率比较实验结果如表4和表5所示,知识超图模型训练效率曲线如图3所示。在所有数据集上,与最先进的基线方法相比,我们所提模型速度平均提高6.12倍,GPU内存平均减少52.67%,参数数量平均减少85.21%,达到最佳性能的同时,训练收敛速度最快。值得称道的是,在保证模型训练效率的同时,HyCubE始终能达到最优的有效性,证明HyCubE具有优秀的知识超图嵌入模型架构。
表4:混合元数知识超图效率对比实验结果
表5:固定元数知识超图效率对比实验结果
图3:知识超图模型训练效率曲线(MRR、Hits@1、Hits@10)
消融实验证明所提模型的核心组件有效性,实验结果如表6、7所示。模型参数分析实验证明所提模型具有较好的稳定性,实验结果如图4所示。
表6:混合元数数据集消融实验结果
表7:固定元数数据集消融实验结果
图4:参数分析实验结果(卷积核尺寸和batch尺寸)
总结
本文提出一种性能增强的3D循环卷积嵌入模型HyCubE,该模型设计一种新颖的3D循环卷积神经网络,并引入交替掩码堆叠策略,实现了有效知识超图嵌入。该模型通过自适应调整3D循环卷积层结构来构建端到端的高效知识超图嵌入,从而更好地平衡了有效性和效率。此外,我们提出带3D残差模块的增强变体版本,有效缓解语义信息较少知识超图数据集容易出现的梯度消失问题。大量实验研究表明,我们所提模型在知识超图嵌入的有效性和效率方面始终优于最先进的基线模型。
OpenKG
OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。
点击阅读原文,进入 OpenKG 网站。