pytorch之nn.Sequential使用详解-EW帮帮网

nn.Sequential 是 PyTorch 库中的一个类，它允许通过按顺序堆叠多个层来创建神经网络模型。它提供了一种方便的方式来定义和组织神经网络的层。

下面是关于如何使用 nn.Sequential 的详细介绍：

1. 基本方法&使用

1.1 导入必要的库

import torch
import torch.nn as nn

1.2. 定义层

首先，需要定义神经网络的各个层。

PyTorch 提供了许多预定义的层类，例如线性层 (nn.Linear)、卷积层 (nn.Conv2d)、循环神经网络层 (nn.RNN)、池化层 (nn.MaxPool2d) 等等。可以根据需求选择适当的层。

除了使用预定义的层类外，还可以通过继承 nn.Module 类来创建自定义的层。可以在自定义层中实现自己的前向传播逻辑。

class CustomLayer(nn.Module):
    def __init__(self, ...):
        super(CustomLayer, self).__init__()
        # 初始化自定义层的参数

    def forward(self, x):
        # 实现自定义层的前向传播逻辑
        return output

定义层时可以设置层的名称，可以通过在层的构造函数中传递 name 参数来为层设置名称。这对于查找和调试模型非常有用。

layer = nn.Linear(in_features, out_features, name='linear1')

1.3. 创建模型

使用 nn.Sequential 类来创建模型对象，并将定义好的层按照顺序传递给它。层将按照它们在 nn.Sequential 中的顺序被堆叠起来，构成完整的模型。

model = nn.Sequential(
    nn.Linear(input_size, hidden_size),
    nn.ReLU(),
    nn.Linear(hidden_size, output_size)
)

在这个例子中，我们创建了一个包含两个线性层和一个 ReLU 激活函数的模型。输入大小为 input_size，输出大小为 output_size。

1.4. 访问模型的层

可以使用索引或迭代 nn.Sequential 对象来访问模型中的各个层。

first_layer = model[0]
last_layer = model[-1]

在上面的示例中，first_layer 是模型的第一个层，last_layer 是模型的最后一个层。

1.5. 模型参数

可以通过 parameters() 方法访问模型的参数。这对于优化器的参数更新非常有用。

方法一：

for param in model.parameters():
    print(param)

方法二：

trainable_params = list(model.parameters())

在上面的示例中，trainable_params 是一个包含模型中所有可训练参数的列表。

1.6. 前向传播

一旦定义了模型，可以将输入数据传递给模型，进行前向传播计算。

input_data = torch.randn(batch_size, input_size)
output = model(input_data)

在上面的示例中，input_data 是输入数据的张量，output 是模型的输出。

1.7. 模型打印

可以使用 print(model) 来打印模型的结构摘要。

print(model)

这将输出模型的层信息和参数数量。

1.8. 修改模型

可以使用 add_module(name, module) 方法在指定位置添加新的层。

model.add_module('fc3', nn.Linear(hidden_size, output_size))

在上面的示例中，在模型的末尾添加了一个新的线性层。

1.9. 删除层

如果想从模型中删除某个层，可以使用 del 关键字或 pop() 方法。

del model[1]  # 删除索引为1的层

或者，使用 pop() 方法可以删除最后一个层。

model.pop()  # 删除最后一个层

1.10. 冻结部分层的参数

在迁移学习等场景中，可能希望冻结模型的某些层的参数，以便它们不会在训练过程中被更新。可以通过设置参数的 requires_grad 属性来实现。

for layer in model[:4]:  # 冻结前四层
    for param in layer.parameters():
        param.requires_grad = False

在上面的示例中，我们将模型的前四层的参数设置为不可训练。

1.11. 移动模型到特定设备

在使用模型之前，需要将模型移动到适当的设备上，例如 GPU。可以使用 to() 方法将模型移动到指定的设备。

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model = model.to(device)

在上面的示例中，将模型移动到可用的 CUDA 设备上，如果 CUDA 不可用，则移动到 CPU 上。

1.12. 获取层的输出

如果希望获取模型中每个层的输出，可以通过迭代模型中的层来实现。

output_list = []
for layer in model:
    input_data = layer(input_data)
    output_list.append(input_data)

在上面的示例中，output_list 将包含模型中每个层的输出。

上面是使用 PyTorch 中的 nn.Sequential 类构建神经网络的基本步骤和操作。通过灵活使用不同类型的层，并按照需要进行层的添加或修改，可以创建各种复杂的神经网络模型

2. 序列模型的局限性

尽管 nn.Sequential 在许多情况下非常有用，但它有一些限制。例如，它无法处理动态的网络结构，无法共享层之间的参数，也无法实现跳跃连接等复杂的模型结构。对于这些情况，需要使用更灵活的方式来定义自定义模型。

3. 其他构建模型的方法

3.1 使用字典定义模型

除了使用 nn.Sequential，还可以使用字典来定义模型。字典键将作为层的名称，字典值将作为层本身。

model = nn.ModuleDict({
    'linear1': nn.Linear(input_size, hidden_size),
    'relu1': nn.ReLU(),
    'linear2': nn.Linear(hidden_size, output_size)
})

在这个例子中，使用 nn.ModuleDict 创建了一个包含线性层和激活函数的模型。可以通过键访问模型的各个层。

3.2 使用 nn.ModuleList

nn.ModuleList 类类似于 Python 的列表，但它可以在 PyTorch 模型中使用。可以使用 nn.ModuleList 来存储层的列表，并将其作为一个整体添加到模型中。

layers = [nn.Linear(input_size, hidden_size), nn.ReLU(), nn.Linear(hidden_size, output_size)]
model = nn.ModuleList(layers)

在上面的示例中，使用 nn.ModuleList 将层列表 layers 添加到模型中

4. 保存和加载模型

可以使用 torch.save() 和 torch.load() 函数保存和加载整个模型。详细使用可以参考文章：pytorch之torch.save()和torch.load()方法详细说明

4.1 保存模型

torch.save(model.state_dict(), 'model.pth')

4.2 加载模型

model.load_state_dict(torch.load('model.pth'))

在上面的示例中，将模型的状态字典保存到文件 model.pth 中，并在需要时加载它。

pytorch之nn.Sequential使用详解