corefBERT论文阅读

发布于:2024-05-09 ⋅ 阅读:(32) ⋅ 点赞:(0)

CorefBERT是清华大学团队发表的,继SpanBERT之后另一针对共指消解的BERT模型。共指消解任务对于文本理解、智能问答等其他NLP子任务起到至关重要的作用。

为了提高语言模型的共指推理能力,一个简单的解决方案是使用有监督的共指解析数据在bert等模型进行微调,但是小的数据集效果一般。

1.概述

corefBERT语言表示模型,可以更好的捕获和表示共引用信息。corefBERT引入一种新的预训练任务MRP(mention refenrece prediction),MRP利用重复出现的提及获得丰富的共指关系。MRP使用掩码方法遮盖一个或者多个提及,模型预测被遮盖住的整个提及。

        根据上图,词的损失由MRP提及参考预测和MLM遮盖语言建模损失两部分构成。上图中“Claire”用MASK替换,要求模型找到合适的候选词来填充它。

2.架构

        corefBERT使用深度双向transformer网络,包含两个训练任务:

(1)Mention Reference Prediction MRP:表述指代预测任务,使用MRP提升协同推理能力,MRP利用提及和使用MASK遮盖重复提及的一个,然后使用赋值的训练目标来预测被遮盖住的提及。

(2)Masked Language Modeing MLM:遮罩预测任务,用于学习一般的语言理解。使用完形填空的方法,根据上下文表征预测缺失的提及。

对于输入的文字序列,计算token和位置嵌入,送入深度双向网络中,获取上下文表示,计算预训练任务的损失。

损失包括两部分:提及预测损失和遮盖语言建模损失。

2.1提及参考遮罩Mention Referebce Masking

提及参考遮罩,遮盖序列中重复提及的标记,不是遮盖随机的token。

在实验过程中,使用词性标注方法,选出所有的名词;讲名词通过聚类分成不同的簇(共指簇),每个簇中包含相同名词的不同提及;每次从共指簇中选择一个表述进行遮盖,并使用上下文信息进行预测。the masked words for MLM and MRP are sampled on a ratio of 4:1. Similar to BERT, 15% of the tokens are sampled for both masking strategies mentioned above, where 80% of them are replaced with a special token [MASK], 10% of them are replaced with random tokens, and 10% of them are unchanged.

2.2copy-based Training objective 关于副本训练目标

通过拷贝文本中未MASK的token来预测缺失的token。通过赋值,可以显示的捕捉遮盖提及及引用之间的关系,从而获得上下文中的共引用信息。

对于输入序列,通过多层transformer得到嵌入向量H,词i可以被词j赋值得到的概率如下公式所示。

V是用于指示分词相似度的可学习参数。MRP任务采用基于词的遮盖,每次都是以词为单位,因此需要通过被遮盖词语的首尾,生成词i被同文本中词j赋值得到的概率。

MRP任务的损失函数为:

其中M为所有被遮盖的表述集合,

实验

训练中,选择批次大小256,学习率5*10-5。