【NLP系列】Bert词向量的空间分布

发布于:2023-03-16 ⋅ 阅读:(118) ⋅ 点赞:(0)

作者:京东零售 彭馨

1. 背景

我们知道Bert 预训练模型针对分词、ner、文本分类等下游任务取得了很好的效果,但在语义相似度任务上,表现相较于 Word2Vec、Glove 等并没有明显的提升。有学者研究发现,这是因为 Bert 词向量存在各向异性(不同方向表现出的特征不一致),高频词分布在狭小的区域,靠近原点,低频词训练不充分,分布相对稀疏,远离原点,词向量整体的空间分布呈现锥形,如下图,导致计算的相似度存在问题。

 

2. 问题分析

为什么Bert词向量会呈现圆锥形的空间分布且高频词更靠近原点?

 

 

查了一些论文发现,除了这篇 ICLR 2019 的论文《Representation Degeneration Problem in Training Natural Language Generation Models》给出了一定的理论解释,几乎所有提及到 Bert 词向量空间分布存在问题的论文,都只是在引用该篇的基础上,直接将词向量压缩到二维平面上进行观测统计(肉眼看的说服力明显不够


网站公告

今日签到

点亮在社区的每一天
去签到