[AI笔记]-Word2Vec面试考点-EW帮帮网

在这里插入图片描述
✅ 一、基础认知类

什么是 Word2Vec？它的基本思想是什么？
关键词：将词语转换为向量表示；捕捉语义关系；基于上下文预测
Word2Vec 与 One-hot 编码的区别？
关键词：维度灾难(维度过高，存储空间大)、高稀疏性、语义表达能力(没有距离概念，无法计算相似度)、内积关系
Word2Vec 的两种模型是什么？它们有何区别？
答案：Word2Vec的重要假设：文本中离得越近的词语相似度越高。主要有：CBOW（Continuous Bag of Words）和 Skip-Gram。（采用滑动窗口+负样本）
- CBOW：用上下文词来预测中心词
- Skip-Gram：用中心词预测上下文词

在这里插入图片描述
Word2Vec的缺点：

✅ 二、原理机制类
4. Word2Vec 是如何训练的？目标函数是什么？
答案：通过上下文预测词、最大化似然函数；负采样或层次 Softmax 优化

✅ 三、数学理解类（进阶）
8. Skip-Gram 的目标函数推导？
关键词：最大化上下文词的联合概率、log-likelihood

✅ 四、工程实现类
11. Word2Vec 的训练流程？
步骤：构建词汇表 → 生成训练样本 → 输入神经网络 → 优化目标函数 → 得到词向量

✅ 五、扩展与对比类
14. Word2Vec 与 TF-IDF 的区别？
TF-IDF：基于统计，不考虑上下文，无需模型训练，无法表达语义相似性；Word2Vec：基于上下文建模，保留语义，需要模型训练，可以表达语义相似性。

TF-IDF（term frequency–inverse document frequency，词频-逆向文件频率）是一种用于信息检索（information retrieval）与文本挖掘（text mining）的常用加权技术。
在这里插入图片描述

✅ 六、实际应用类
18. 如何评估 Word2Vec 模型的好坏？
方法：词相似度评估（WordSim-353）、类比任务（man:king = woman:?）、下游任务表现

✅ 七、面试加分项：批判性思维
21. Word2Vec 的缺陷和改进方向？
缺点：
无法建模多义词（静态）
无法处理 OOV( “Out-of-Vocabulary” 的缩写，意思是未登录词或词表外词汇。)
长文本无法直接表示

发展方向：
子词建模（FastText）
上下文相关表示（ELMo、BERT）
预训练+微调模式

[AI笔记]-Word2Vec面试考点