基于深度学习的nlp-EW帮帮网

一、背景

里程碑事件

2013：Word2Vec 提出，词向量革命开启。

2017：Transformer发布，取代RNN成为主流。

2018+：BERT、GPT等预训练模型席卷NLP领域。

在NLP中，许多任务可转化为有监督分类问题，例如：

有监督学习流程

一些实践经验

深度学习的输入必须是数值张量，因此NLP的第一步是文本数字化。

分词（Tokenization）
去除噪声
移除HTML标签、特殊字符、停用词
向量化表示：One-hot：稀疏且维度高；词向量（Word2Vec、GloVe）：稠密低维，捕捉语义；上下文向量（ELMo、BERT）：根据上下文动态生成
序列对齐与填充（Padding）：将不同长度文本补齐到统一长度

独词特征
- 词元和词干：例如 books, booking, booked → book，picture, pictures, pictured → pictur（通过词干提取减少词形变化带来的冗余）。
- 词典资源：如 WordNet、FrameNet、VerbNet 提供的语义、同义词、上下位词等知识。
- 分布信息：统计词在不同语境中的出现规律。
文本特征
- 词袋模型（BOW）：将文本表示为词频直方图，不考虑词序。
- 权重：如 TF-IDF，用于衡量某个词对区分文本的重要性。
上下文词特征
- 窗口：基于相邻词的上下文关系，例如固定大小的窗口聚焦中心词周围的词。
- 位置：记录词在句子或文本中的具体位置。
词关系特征
- 不仅关注词自身，还研究词与词之间的依存、共现等关系。