(阅读笔记)PARE:A Simple and Strong Baseline for Monolingual and MultilingualDistantly Supervis

发布于:2022-12-25 ⋅ 阅读:(657) ⋅ 点赞:(0)

来源:2022.ACL PARE:用于单语和多语远程监督关系提取的简单而强大的基线

模型的优势:

1、模型简单;

2、每个token都可以和句子中的其他token交换信息(包内句子交换信息,充分利用包中的信息);

3、能够放宽至少一个假设的一部分,例如:包中没有一个句子单独表达了当前句袋的关系,但可能存在包中多个实例共同预测了该种关系的情况,该模型可以由此学会提取这种关系。

模型

首先通过连接句袋 B(e1, e2) 中的所有句子来构造一个段落 P (e1, e2)。然后,再通过 BERT (Devlin et al, 2019)(或用于多语言设置的 mBERT)对整个段落进行编码。由此生成包中每个token的上下文嵌入。为了让这些嵌入感知候选关系,采用训练过的关系查询向量 r,通过注意力生成整个段落的关系感知summary。然后用它来预测 (e1, r, e2) 是否是一个有效的预测。

如上图,以一个有三个句子的句袋为例,该模型分为三个部分:段落构建、编码+summarization、预测。

一、段落构建

顺序拼接包中的每一个句子,遇到以下两种情况终止:

(1)超过bert允许输入的最大tokens数目(512个);

(2)包中所有句子已被采样完成。

二、编码+summarization

1、编码

将上述构建的段落送入bert/mbert生成每个token -wj的上下文嵌入zj。具体操作如下:

(1)[CLS]标记段落的开始;

(2)[SEP]分隔段落中的每个句子;

(3)[PAD]对于最大数目512,如有剩余的token数目则使用特殊标记[PAD]进行填充。

(4)并且使用了Han et al., 2019的方法在实体e1,e2两侧分别加入特殊实体标记token<e1>,</e1>; <e2>,</e2>(https://aclanthology.org/D19-3029/)

2Summarization

(1)随机初始化每个关系的查询向量ri;

(2)ri和wj(注意非bert编码的zj)做点积运算,得到一个正则化注意力αij;

(3)计算整个段落的relation-attended summary如下:

L为输入token的长度,summary表示为段落中所有token的加权和,此处特殊标记[CLS],[SEP],[PAD]都作为token参与运算。

三、预测

将上述过程得到的z(e1,ri,e2)输入一个后接sigmoid激活函数的MLP分类器,得到三元组(e1,ri,e2)为关系ri的可能性pi,并设置临界值为0.5,当pi>0.5时,判断为关系i的正例。

损失函数:二元交叉熵