[AI笔记]-Word2Vec面试考点

发布于:2025-07-03 ⋅ 阅读:(28) ⋅ 点赞:(0)

在这里插入图片描述
✅ 一、基础认知类

  1. 什么是 Word2Vec?它的基本思想是什么?
    关键词:将词语转换为向量表示;捕捉语义关系;基于上下文预测

  2. Word2Vec 与 One-hot 编码的区别?
    关键词:维度灾难(维度过高,存储空间大)、高稀疏性、语义表达能力(没有距离概念,无法计算相似度)、内积关系

  3. Word2Vec 的两种模型是什么?它们有何区别?
    答案:Word2Vec的重要假设:文本中离得越近的词语相似度越高。主要有:CBOW(Continuous Bag of Words) 和 Skip-Gram。(采用滑动窗口+负样本)

    • CBOW:用上下文词来预测中心词
    • Skip-Gram:用中心词预测上下文词

在这里插入图片描述
Word2Vec的缺点:

  • 没有考虑同义词(无法动态调整词向量)
  • 窗口长度有限(仅是周围的词义)
  • 没有考虑全局的文本信息
  • 不是严格意义的语序

✅ 二、原理机制类
4. Word2Vec 是如何训练的?目标函数是什么?
答案:通过上下文预测词、最大化似然函数;负采样或层次 Softmax 优化

  1. 为什么 Skip-Gram 更适合小语料?CBOW 更适合大语料?
    理由:Skip-Gram 精度高,CBOW 训练快

  2. 什么是负采样(Negative Sampling)?为什么要使用它?
    关键词:减少计算开销、近似 Softmax、提升效率

  3. Word2Vec 中的窗口(window size)参数作用是什么?
    答案:定义上下文的范围,影响模型捕捉的语义颗粒度

✅ 三、数学理解类(进阶)
8. Skip-Gram 的目标函数推导?
关键词:最大化上下文词的联合概率、log-likelihood

  1. Word2Vec 为什么能捕捉“词义”的相似性?
    答案:相似上下文 → 向量接近 → cosine 相似度体现语义相近

  2. Word2Vec 向量中的“王 - 男人 + 女人 ≈ 女王”是怎么实现的?
    答案:词向量捕捉了语法与语义的偏移关系,本质为线性关系在高维空间中成立

✅ 四、工程实现类
11. Word2Vec 的训练流程?
步骤:构建词汇表 → 生成训练样本 → 输入神经网络 → 优化目标函数 → 得到词向量

  1. 用什么库实现 Word2Vec?是否手写过?
    答案:gensim、TensorFlow、PyTorch,是否了解其实现细节或自定义训练?

  2. 训练 Word2Vec 时如何处理 OOV(未登录词)?
    方法:使用 、子词模型、FastText 替代等策略

✅ 五、扩展与对比类
14. Word2Vec 与 TF-IDF 的区别?
TF-IDF:基于统计,不考虑上下文,无需模型训练,无法表达语义相似性;Word2Vec:基于上下文建模,保留语义,需要模型训练,可以表达语义相似性。

TF-IDF(term frequency–inverse document frequency,词频-逆向文件频率)是一种用于信息检索(information retrieval)与文本挖掘(text mining)的常用加权技术。
在这里插入图片描述

  1. Word2Vec 与 GloVe 有何异同?
    Word2Vec:局部上下文预测;GloVe:基于全局共现矩阵建模

  2. Word2Vec 与 FastText 的区别?
    FastText:使用子词信息,可处理 OOV,更适合小语料,捕捉形态学信息

  3. Word2Vec 与 BERT 的区别?
    Word2Vec:静态词向量,无法区分“银行”的歧义;BERT:上下文相关、动态词向量

✅ 六、实际应用类
18. 如何评估 Word2Vec 模型的好坏?
方法:词相似度评估(WordSim-353)、类比任务(man:king = woman:?)、下游任务表现

  1. 你在哪些项目中使用过 Word2Vec?它起到了什么作用?
    示例:文本分类、搜索相关性、推荐系统、聚类、主题建模等

  2. 如何将 Word2Vec 向量应用到分类模型中?
    答案:将词向量平均/拼接作为句子向量,输入到分类模型(如 LR、SVM、DNN)

✅ 七、面试加分项:批判性思维
21. Word2Vec 的缺陷和改进方向?
缺点:
无法建模多义词(静态)
无法处理 OOV( “Out-of-Vocabulary” 的缩写,意思是 未登录词 或 词表外词汇。)
长文本无法直接表示

发展方向:
子词建模(FastText)
上下文相关表示(ELMo、BERT)
预训练+微调模式