山东大学深度学习期末概念汇总-EW帮帮网

深度学习入门

超参数：模型训练前人工设定的参数

训练数据：使用训练数据进行学习，寻找最优的参数

测试数据：使用测试数据来评估泛化能力

验证数据：用于调整超参数

为了正确评价模型的泛化能力，就必须划分训练数据和测试数据

泛化能力：指处理未被观察过的数据的能力

过拟合：只对某个数据集过度拟合的状态

抑制方法：增加训练数据；降低模型的复杂度
权值衰减：通过在学习的过程中对大的权重进行惩罚，来抑制过拟合
Dropout：在学习的过程中随机删除神经元的方法

激活函数：将输入信号的总和转换为输出信号

神经网络的激活函数必须使用非线性函数， 线性模型的表达能力局限，线性函数的问题在于，不管如何加深层数，总是存在与之等效的“无隐藏层的神经网络”
阶跃函数、sigmoid函数、Relu函数、tanh函数
对比：
- 不同点：“平滑性”的不同、sigmoid函数流动的是连续的实数值信号
- 相同点：具有相似的形状、非线性函数

损失函数：表示神经网络性能的“恶劣程度”的指标，即当前的神经网络对监督数据在多大程度上不拟合，在多大程度上不一致

均方误差：
交叉熵误差：

one-hot表示：将正确解标签表示为1，其他标签表示为0的表示方法

优化器：SGD、Momentum、AdaGrad、Adam

梯度下降：一种迭代优化算法，通过计算当前参数的梯度，并沿梯度反方向更新参数，逐步降低损失函数值。

随机梯度下降法：对随机选择的数据进行的梯度下降法

数值微分：利用微小的差分求导数的过程

误差反向传播：一种高效计算梯度的算法，通过链式法则从输出层向输入层反向传播梯度，逐层计算各参数的梯度。

梯度确认/检验：确认数值微分求出的梯度结果和误差反向传播法求出的结果是否一致

批量归一化：其核心思想是通过对神经网络中间层的输入进行归一化，缓解内部协变量偏移问题。具体而言就是使数据分布的均值为0、方差为1的正规化

可以使学习快速进行（可以增大学习率）
不那么依赖初始值（对于初始值不用那么神经质）
抑制过拟合（降低Dropout等的必要性）

卷积神经网络

特点：局部感知、权值共享、池化

卷积：用一个可学习的卷积核在输入数据上滑动，对每个滑动位置上卷积核覆盖的局部区域内的元素进行加权求和，从而生成新的特征

池化：是缩小高、长方向上的空间的运算

没有要学习的参数
通道数不发生变化
对微小的位置变化具有鲁棒性

加深层的效果：减少网络的参数数量、使学习更加高效

复习

全连接：相邻层的所有神经元之间都有连接

感知机：接收多个输入信号，输出一个信号

epoch：一个epoch表示学习中所有训练数据均被使用过一次时的更新次数

深度学习进阶

自然语言处理：基于同义词词典的方法、基于计数的方法、基于推理的方法

同义词词典：在同义词词典中，具有相同含义的单词或含义类似的单词被归类到同一个组中

分布式表示：将单词表示为固定长度的向量。这种向量的特征在于它是用密集向量表示的

分布式假设：某个单词的含义由它周围的单词形成

共现矩阵：汇总了所有单词的共现单词的矩阵。这个矩阵的各行对应相应单词的向量

点互信息：综合考虑单词在句子中出现的次数与单词与其他单词的共现次数

基于奇异值分解的降维：X=USVT

计算XTX：用于求右奇异向量
计算XXT：用于求左奇异向量
求特征值和特征向量
奇异值 σi=λi1/2

word2vec

基于推理的方法:给出周围的单词时，预测“？”会出现什么单词

先把单词进行初步向量表示，可以使用 one-hot
CBOW模型：根据上下文预测目标词的神经网络
skip-gram：根据中心词预测上下文（更难、能提供更好的单词的分布式表示）
学习到的 Win权重矩阵就是词的向量表示

基于计数和基于推理的对比

基于计数的方法通过对整个语料库的数据进行一次学习获得单词的分布式表示，而基于推理的方法是反复利用批数据进行学习
若需要向词汇表添加新词，基于计数的方法需要全部从头计算，基于推理的方法允许增量学习。
基于计数的方法是根据单词的相似度，而基于推理的还能理解词与词之间的模式关系。

改进：

输入层的 one-hot 表示和权重矩阵 Win 的乘积
中间层和权重矩阵 Wout 的乘积以及 Softmax 层的计算

Embedding 层

正向传播时，从权重矩阵 W 中提取特定的行，并将该特定行的神经元原样传给下一层
反向传播时，从上一层传来的梯度会被应用到权重梯度 dW 的特定行。当 idx 有重复的时候返回梯度时把idx的梯度相加，而不是写入

负采样：用二分类拟合多分类，只使用少数负例，使得模型对正确的词得分高，对错误的词得分低

给几个上下文，问中心词是什么？
转换成：给几个上下文，再给出中心词，问他是不是中心词？

基于语料库的统计数据进行采样的方法比随机抽样要好

单词相似度的评价通常使用人工创建的单词相似度评价集来评估。然后，比较人给出的分数和 word2vec 给出的余弦相似度，考察它们之间的相关性

类推问题的评价是指，基于诸如“king : queen = man : ?”这样的类推问题，根据正确率测量单词的分布式表示的优劣。

RNN：循环神经网络

对比：

前馈型神经网络传播方向是单向的
RNN层有环路，通过该环路，数据可以在层内循环

步骤：

每个词按顺序输入网络，先进行embedding，获取分布式表示；
进入RNN层，RNN向上方输出隐藏状态，向下一时刻的RNN输出隐藏状态
本层RNN经过Affine给Softmax

截断的 BPTT：就是将时间轴方向上过长的网络在合适的位置进行截断，从而创建多个小型网络，然后对截出来的小型网络执行误差反向传播法

困惑度表示“概率的倒数”、指下一个可以选择的选项的数量

梯度消失和梯度爆炸的原因

tanh(x)的导数值小于 1.0，当反向传播的梯度经过 tanh 节点时，它的值会越来越小
矩阵Wh被反复乘了T次，当Wh大于1时，梯度呈指数级增加；当Wh 小于1时，梯度呈指数级减小

梯度消失：梯度的大小随时间步长呈指数级减小

可以将 tanh 激活函数替换为 ReLU 函数

梯度爆炸：梯度的大小随时间步长呈指数级增加

梯度裁剪：如果梯度的 L2 范数 g 大于或等于阈值，就按上述方法修正梯度（方向不变，长度等于阈值）

LSTM：长短期记忆网络

解决RNN梯度消失和梯度爆炸的问题

输出门O：针对tanh(ct)的各个元素，调整它们的重要程度
遗忘门f：忘记不必要记忆
新记忆单元g:
输入门i: 判断新增信息g的各个元素的价值

为什么不会梯度消失：

LSTM 的反向传播过程中会经过 + 和 × 两种计算节点
而经过 + 节点时，梯度是不变的
而这里的 × 节点不是矩阵相乘，而是对应位置元素相乘

RNNLM改进

LSTM层的多层化
基于Dropout抑制过拟合
权重共享

seq2seq

概念：Encoder——Decoder 模型

seq2seq的改进：反转数据、Peeky

Attention：

机制：仅关注必要的信息，并根据该信息进行时序转换

编码器：输出各个时刻的 LSTM 层的隐藏状态hs

解码器：接收各个时刻的 LSTM 层的隐藏状态和编码器的 hs。然后，从中选出必要的信息，并输出到 Affine 层

山东大学深度学习期末概念汇总

深度学习入门

卷积神经网络

复习

深度学习进阶

word2vec

改进：

RNN：循环神经网络

LSTM：长短期记忆网络

RNNLM改进

seq2seq

Attention：

网站公告

今日签到

热门文章

最新发布