✅ 一、基础认知类
什么是 Word2Vec?它的基本思想是什么?
关键词:将词语转换为向量表示;捕捉语义关系;基于上下文预测Word2Vec 与 One-hot 编码的区别?
关键词:维度灾难(维度过高,存储空间大)、高稀疏性、语义表达能力(没有距离概念,无法计算相似度)、内积关系Word2Vec 的两种模型是什么?它们有何区别?
答案:Word2Vec的重要假设:文本中离得越近的词语相似度越高。主要有:CBOW(Continuous Bag of Words) 和 Skip-Gram。(采用滑动窗口+负样本)- CBOW:用上下文词来预测中心词
- Skip-Gram:用中心词预测上下文词
Word2Vec的缺点:
- 没有考虑同义词(无法动态调整词向量)
- 窗口长度有限(仅是周围的词义)
- 没有考虑全局的文本信息
- 不是严格意义的语序
✅ 二、原理机制类
4. Word2Vec 是如何训练的?目标函数是什么?
答案:通过上下文预测词、最大化似然函数;负采样或层次 Softmax 优化
为什么 Skip-Gram 更适合小语料?CBOW 更适合大语料?
理由:Skip-Gram 精度高,CBOW 训练快什么是负采样(Negative Sampling)?为什么要使用它?
关键词:减少计算开销、近似 Softmax、提升效率Word2Vec 中的窗口(window size)参数作用是什么?
答案:定义上下文的范围,影响模型捕捉的语义颗粒度
✅ 三、数学理解类(进阶)
8. Skip-Gram 的目标函数推导?
关键词:最大化上下文词的联合概率、log-likelihood
Word2Vec 为什么能捕捉“词义”的相似性?
答案:相似上下文 → 向量接近 → cosine 相似度体现语义相近Word2Vec 向量中的“王 - 男人 + 女人 ≈ 女王”是怎么实现的?
答案:词向量捕捉了语法与语义的偏移关系,本质为线性关系在高维空间中成立
✅ 四、工程实现类
11. Word2Vec 的训练流程?
步骤:构建词汇表 → 生成训练样本 → 输入神经网络 → 优化目标函数 → 得到词向量
用什么库实现 Word2Vec?是否手写过?
答案:gensim、TensorFlow、PyTorch,是否了解其实现细节或自定义训练?训练 Word2Vec 时如何处理 OOV(未登录词)?
方法:使用 、子词模型、FastText 替代等策略
✅ 五、扩展与对比类
14. Word2Vec 与 TF-IDF 的区别?
TF-IDF:基于统计,不考虑上下文,无需模型训练,无法表达语义相似性;Word2Vec:基于上下文建模,保留语义,需要模型训练,可以表达语义相似性。
TF-IDF(term frequency–inverse document frequency,词频-逆向文件频率)是一种用于信息检索(information retrieval)与文本挖掘(text mining)的常用加权技术。
Word2Vec 与 GloVe 有何异同?
Word2Vec:局部上下文预测;GloVe:基于全局共现矩阵建模Word2Vec 与 FastText 的区别?
FastText:使用子词信息,可处理 OOV,更适合小语料,捕捉形态学信息Word2Vec 与 BERT 的区别?
Word2Vec:静态词向量,无法区分“银行”的歧义;BERT:上下文相关、动态词向量
✅ 六、实际应用类
18. 如何评估 Word2Vec 模型的好坏?
方法:词相似度评估(WordSim-353)、类比任务(man:king = woman:?)、下游任务表现
你在哪些项目中使用过 Word2Vec?它起到了什么作用?
示例:文本分类、搜索相关性、推荐系统、聚类、主题建模等如何将 Word2Vec 向量应用到分类模型中?
答案:将词向量平均/拼接作为句子向量,输入到分类模型(如 LR、SVM、DNN)
✅ 七、面试加分项:批判性思维
21. Word2Vec 的缺陷和改进方向?
缺点:
无法建模多义词(静态)
无法处理 OOV( “Out-of-Vocabulary” 的缩写,意思是 未登录词 或 词表外词汇。)
长文本无法直接表示
发展方向:
子词建模(FastText)
上下文相关表示(ELMo、BERT)
预训练+微调模式