图文检索(37):局部对齐Stacked Cross Attention for Image-Text Matching

发布于:2025-02-11 ⋅ 阅读:(23) ⋅ 点赞:(0)


发布时间(2018 ECCV)


标题:用于图像文本匹配的堆叠交叉注意力

摘要

1)全局对齐:先前的工作要么简单地汇总所有可能的区域和单词对的相似性,而不对更重要和更不重要的单词或区域进行差异化关注
2)不可解释:要么使用多步骤注意过程来捕获有限数量的语义对齐,这不太容易解释
3)可解释性:在本文中,我们提出了堆叠交叉注意力来发现使用图像区域和句子中的单词作为上下文的完整潜在对齐并推断图像文本相似性

引言

我们引入了一种新颖的堆叠交叉注意力机制,它能够分两个阶段关注图像和句子的上下文。
1)给定一张图片和一个句子,它首先关注句子中与每个图像区域相关的单词,然后将每个图像区域与句子中关注的信息进行比较,以决定图像区域的重要性。
2)首先关注每个单词的图像区域,然后决定对每个单词给予更多或更少的关注

自下而上注意力

方法

将单词和图像区域映射到一个公共嵌入空间,以推断整个图像和完整句子之间的相似性。
我们从自下而上的注意力开始,检测图像区域并将其编码为特征。此外,我们将句子中的单词连同句子上下文一起映射到特征。然后,我们应用堆叠交叉注意力通过对齐图像区域和单词特征来推断图像句子的相似性。
我们首先在第 3.1 节中介绍堆叠交叉注意力,并在
第 3.2 节中介绍学习对齐的目标。然后,我们分别在
第 3.3 节和第 3.4 节中
详细介绍图像和句子表示。

3.1 stacked cross attention

image-text stacked cross attention(使用文本表示图像)

sij-代表这个 token 与k个region的相似度
aij是每一个region i 对于n个token的相似性分布
ai = aijej 也就是使用 token 组合来表示 rejion

region 通过 token 组合表示
region 的原始表示
两者之间的关系是 R

而整体 image 和 text 的相似度可以使用两种方式计算:
1)利用 LSE 表示
并且通过超参数λ2来控制最相关 R 的重要性
2)简单的平均池化 AVG

text-image stacked cross attention(使用图像表示文本)
同样
aj = aijvi 也就是使用 region 组合来表示 token
整体相似度两种计算
1)LSE
2)AVG

除了上面的计算文本图像相似度的方式,还有 sum-max,也就是从相似度矩阵的每一行取出最大值相加/每一列取出最大值相加,得到图像文本的总相似度

3.2 alignment objective

这里使用的是 triplet ranking loss
并且使用最难负样本

3.3 representing images with bottom-up attention

图像特征区域的表示是利用目标检测出来的 object 进行表示

3.4 representing sentences

还是双向GRU

结论

审视先前的工作以确认推断图像区域和单词之间潜在对应关系的重要性。此外,我们展示了如何利用学习到的 Stacked Cross Attention 为此类视觉语言模型提供更多可解释性。


网站公告

今日签到

点亮在社区的每一天
去签到