【NLP高频面题 - Transformer篇】Transformer编码器有哪些子层?

发布于:2025-02-11 ⋅ 阅读:(40) ⋅ 点赞:(0)

Transformer编码器有哪些子层?

重要性:★

Transformer 解码器由 3 个子层组成:带掩码的多头注意力层、多头注意力层、前馈网络层。

Transformer 两个解码器串联结构如图所示:

Transformer 解码器的解码有以下步骤:

(1)首先,我们将解码器的输入转换为嵌入矩阵,然后将位置编码加入其中,并将其作为输入送入底层的解码器(解码器 1)。

(2)解码器收到输入,并将其发送给带掩码的多头注意力层,生成注意力矩阵 M。

(3)然后,将注意力矩阵 M 和编码器输出的特征值 R 作为多头注意力层(编码器−解码器注意力层)的输入,并再次输出新的注意力矩阵。

(4)把从多头注意力层得到的注意力矩阵作为输入,送入前馈网络层。前馈网络层将注意力矩阵作为输入,并将解码后的特征作为输出。

(5)最后,我们把从解码器 1 得到的输出作为输入,将其送入解码器 2。

(6)解码器 2 进行同样的处理,并输出目标句的特征。


NLP 大模型高频面题汇总

NLP基础篇
BERT 模型面
LLMs 微调面

网站公告

今日签到

点亮在社区的每一天
去签到