Gpt,gpt2,gpt3,bert,roberta,t5模型区别分析

发布于:2023-05-01 ⋅ 阅读:(364) ⋅ 点赞:(0)

Gpt,gpt2,gpt3,bert,roberta,t5模型区别分析

只有decoder:
GPT:仅使用上文进行编码
GPT2:仍然仅使用上文进行编码(因为要处理生成任务)。但是模型更大,数据量更多。
GPT3:超大规模

只有encoder:
Bert:同时使用上下文进行编码
Roberta:相比bert主要是在训练参数上做了调整:batch size,adam参数,训练数据、nsp loss、epoch数,词表大小。

同时有encoder-decoder:
T5。encoder的hidden层输出用avgpooling,而不是像bert一样用的cls-token


网站公告

今日签到

点亮在社区的每一天
去签到