corefBERT论文阅读-EW帮帮网

CorefBERT是清华大学团队发表的，继SpanBERT之后另一针对共指消解的BERT模型。共指消解任务对于文本理解、智能问答等其他NLP子任务起到至关重要的作用。

为了提高语言模型的共指推理能力，一个简单的解决方案是使用有监督的共指解析数据在bert等模型进行微调，但是小的数据集效果一般。

1.概述

corefBERT语言表示模型，可以更好的捕获和表示共引用信息。corefBERT引入一种新的预训练任务MRP(mention refenrece prediction)，MRP利用重复出现的提及获得丰富的共指关系。MRP使用掩码方法遮盖一个或者多个提及，模型预测被遮盖住的整个提及。

根据上图，词的损失由MRP提及参考预测和MLM遮盖语言建模损失两部分构成。上图中“Claire”用MASK替换，要求模型找到合适的候选词来填充它。

2.架构

corefBERT使用深度双向transformer网络，包含两个训练任务：

（1）Mention Reference Prediction MRP:表述指代预测任务，使用MRP提升协同推理能力，MRP利用提及和使用MASK遮盖重复提及的一个，然后使用赋值的训练目标来预测被遮盖住的提及。

（2）Masked Language Modeing MLM:遮罩预测任务，用于学习一般的语言理解。使用完形填空的方法，根据上下文表征预测缺失的提及。

对于输入的文字序列，计算token和位置嵌入，送入深度双向网络中，获取上下文表示，计算预训练任务的损失。

损失包括两部分：提及预测损失和遮盖语言建模损失。

2.1提及参考遮罩Mention Referebce Masking

提及参考遮罩，遮盖序列中重复提及的标记，不是遮盖随机的token。

在实验过程中，使用词性标注方法，选出所有的名词；讲名词通过聚类分成不同的簇（共指簇），每个簇中包含相同名词的不同提及；每次从共指簇中选择一个表述进行遮盖，并使用上下文信息进行预测。the masked words for MLM and MRP are sampled on a ratio of 4:1. Similar to BERT, 15% of the tokens are sampled for both masking strategies mentioned above, where 80% of them are replaced with a special token [MASK], 10% of them are replaced with random tokens, and 10% of them are unchanged.