ms-swift 微调 internlm3-8b-instruct(论文分类任务)

发布于:2025-06-27 ⋅ 阅读:(17) ⋅ 点赞:(0)

参考链接

Docs

Docs

Docs

评测 — swift 3.6.0.dev0 文档

算力资源

这里我用的是书生的训练营给的算力资源,可以报名申请闯关提高算力,不过第五期的训练营从5月27日就已经开始了

环境

CUDA:12.2

显存:40GB(50% A100)

Python 包管理:conda

LLM:internlm3-8b-instruct

微调框架:ms-swift

训练方式:(预训练 + SFT)Lora

目标

InternLM 系列模型 进行微调,使其能够完成论文分类任务,然后进行打榜

Docs

安装 ms-swift

1)创建 conda 环境

# 创建 conda 虚拟环境,环境名称为 swift,python 的版本为 3.10
conda create -n swift python=3.10

2)切换 环境

conda activate swift

3)安装 ms-swift

# ms-swift 全能力安装
pip install 'ms-swift[all]' -U

训练集

训练集:实战营arxiv论文分类数据集

下载

1)安装 ModelScope

pip install modelscope

2)创建文件夹

mkdir -p /root/datasets/train

2)下载训练集

# 完整下载整个训练集,并下载到 /root/datasets/train 目录下
modelscope download --dataset JimmyMa99/smartflow-arxiv-dataset --local_dir /root/datasets/train

预训练

目标:让模型学习识别论文的基本结构、元数据和内容特征

1)新建训练脚本

# 创建 config 文件夹
mkdir config
# 脚本
vim config/internlm3-8b-pretrain.sh

internlm3-8b-instruct.sh:

可以自己定义一些参数,从第5行到第13行

swift 一些参数说明可参考:https://zhuanlan.zhihu.com/p/1920127302924235042

#!/bin/bash

############ 可自定义
# 指定基础模型,可以是模型路径
model="Shanghai_AI_Laboratory/internlm3-8b-instruct"
# 训练集路径(预训练 训练集)
data_path="/root/datasets/train/swift_formatted_pretrain_data.jsonl"
# 模型输出路径
output_dir="/root/swift_output/internlm3-8b-lora"
# 模型作者
model_author="fei"
# 训练后的模型名称
model_name="InternLM3-8B-Lora"

# 创建日志目录
LOG_DIR="logs"
mkdir -p $LOG_DIR 

# 获取当前时间戳,用于生成唯一的日志文件名
TIMESTAMP=$(date +"%Y%m%d_%H%M%S")
LOG_FILE="$LOG_DIR/internlm3-8b_lora_sft_${TIMESTAMP}.log"  

# 设置CUDA环境变量
export NPROC_PER_NODE=1
export OMP_NUM_THREADS=1
export CUDA_VISIBLE_DEVICES=0
export MASTER_PORT=$((10000 + RANDOM % 50000))

# 使用nohup命令在后台运行训练任务,即使终端关闭也能继续运行
nohup swift sft \
    --model $model \
    --train_type lora \
    --dataset $data_path \
    --torch_dtype bfloat16 \
    --num_train_epochs 2 \
    --per_device_train_batch_size 4 \
    --learning_rate 5e-5 \
    --warmup_ratio 0.1 \
    --split_dataset_ratio 0 \
    --lora_rank 8 \
    --lora_alpha 32 \
    --use_chat_template false \
    --target_modules all-linear \
    --gradient_accumulation_steps 2 \
    --save_steps 2000 \
    --save_total_limit 5 \
    --gradient_checkpointing_kwargs '{"use_reentrant": false}' \
    --logging_steps 5 \
    --max_length 2048 \
    --output_dir $output_dir \
    --dataloader_num_workers 256 \
    --model_author $model_author \
    --model_name $model_name \
    > "$LOG_FILE" 2>&1 &  

# 打印进程ID和日志文件位置,便于用户跟踪
echo "Training started with PID $!"  
echo "Log file: $LOG_FILE"  

# 提示用户如何实时查看日志
echo "To view logs in real-time, use:"
echo "tail -f $LOG_FILE"

2)执行预训练脚本

bash config/internlm3-8b-pretrain.sh

3)查看日志

# 要复制脚本执行后的,最后一条命令
tail -f logs/internlm3-8b_lora_sft_20250622_140355.log

4)训练结束

合并权重

将模型权重合并

# 复制日志中 last_model_checkpoint 对应的路径
swift export --adapters /root/swift_output/internlm3-8b-lora/v2-20250622-142204/checkpoint-144 --merge_lora true

SFT

目标:让模型学会准确分类,输出简洁答案

1)新建训练脚本

# 脚本
vim config/internlm3-8b-sft.sh

internlm3-8b-sft.sh:

可以自己定义一些参数,从第5行到第15行

swift 一些参数说明可参考:https://zhuanlan.zhihu.com/p/1920127302924235042

#!/bin/bash

############ 可自定义
# 指定基础模型路径,使用上面预训练合并后的路径
model="/root/swift_output/internlm3-8b-lora/v2-20250622-142204/checkpoint-144-merged"
# 训练集路径(sft 训练集)
data_path="/root/datasets/train/swift_formatted_sft_train_data.jsonl"
# 模型输出路径
output_dir="/root/swift_output/internlm3-8b-lora"
# 模型作者
model_author="fei"
# 训练后的模型名称
model_name="InternLM3-8B-Lora"
# swanlab的project名称
swanlab_project="InternLM3-8B-paper-classify-Lora"

# 创建日志目录
LOG_DIR="logs"
# 创建日志目录,-p参数确保即使目录已存在也不会报错
mkdir -p $LOG_DIR


# 获取当前时间戳
TIMESTAMP=$(date +"%Y%m%d_%H%M%S")
# 获取当前时间并格式化为年月日_时分秒格式
LOG_FILE="$LOG_DIR/internlm3-8b_lora_sft_${TIMESTAMP}.log"
# 组合日志文件路径,使用时间戳确保文件名唯一

# 设置CUDA设备
export NPROC_PER_NODE=1
# 设置每个节点的进程数为1
export OMP_NUM_THREADS=1
# 设置OpenMP线程数为1,限制并行线程数
export CUDA_VISIBLE_DEVICES=0
# 指定使用的GPU设备为0号设备

# 使用nohup命令在后台运行swift sft命令,即使终端关闭也能继续运行
nohup swift sft \
    --model $model \
    --train_type lora \
    --dataset $data_path \
    --torch_dtype bfloat16 \
    --num_train_epochs 2 \
    --per_device_train_batch_size 8 \
    --learning_rate 1e-4 \
    --warmup_ratio 0.1 \
    --report_to swanlab \
    --swanlab_project $swanlab_project \
    --split_dataset_ratio 0 \
    --lora_rank 8 \
    --lora_alpha 32 \
    --target_modules all-linear \
    --gradient_accumulation_steps 2 \
    --save_steps 2000 \
    --save_total_limit 5 \
    --gradient_checkpointing_kwargs '{"use_reentrant": false}' \
    --logging_steps 5 \
    --max_length 2048 \
    --output_dir $output_dir \
    --dataloader_num_workers 256 \
    --model_author $model_author \
    --model_name $model_name \
    > "$LOG_FILE" 2>&1 &

# 打印进程ID和日志文件位置
echo "Training started with PID $!"
# 显示训练进程的PID($!代表最近一个后台进程的PID)
echo "Log file: $LOG_FILE"
# 显示日志文件的路径

# 显示查看日志的命令
echo "To view logs in real-time, use:"
echo "tail -f $LOG_FILE"

2)安装 swanlab

SwanLab 是一款开源、轻量的 AI 模型训练跟踪与可视化工具,提供了一个跟踪、记录、比较、和协作实验的平台。

pip install swanlab

3)登录 swanlab

3.1)前往 swanlab 注册

网址:https://swanlab.cn/

3.2)获取 API Key

3.2)服务器登录

swanlab login
# 然后粘贴 API key
回车

4)执行 sft 训练脚本

bash config/internlm3-8b-sft.sh

5)查看日志

# 要复制脚本执行后的,最后一条命令
tail -f logs/internlm3-8b_lora_sft_20250622_152058.log

6)训练结束

最高用到 37G 显存

7)通过 swanlab,了解到相关的数据【可选】

网址:https://swanlab.cn/space/~

合并权重

# 复制日志中 last_model_checkpoint 对应的路径
swift export --adapters /root/swift_output/internlm3-8b-lora/v5-20250622-155801/checkpoint-62 --merge_lora true

评测

准备

将评测数据集改名

# 添加 _val,是为了能让 swift 知道这个是评测数据
mv eval_oc_data.csv eval_oc_data_val.csv

注意:我下面不是用的这个评测集进行评测的,我把他移动到 /root/datasets/eval,并改名为 newformat_sft_test_data_val.csv

微调前

参考链接:评测 — swift 3.6.0.dev0 文档

--eval_dataset general_mcq:通用选择题数据集

"local_path": "/root/datasets/eval":这个是数据集所在的路径

"subset_list": ["newformat_sft_test_data"]:这个数据集名称的前缀,我这里的文件是 newformat_sft_test_data_val.csv

官方文档说明

评测命令:

CUDA_VISIBLE_DEVICES=0 \
swift eval \
    --model Shanghai_AI_Laboratory/internlm3-8b-instruct \
    --eval_backend Native \
    --infer_backend pt \
    --eval_dataset general_mcq \
    --dataset_args '{"general_mcq": {"local_path": "/root/datasets/eval", "subset_list": ["newformat_sft_test_data"]}}'

微调后

/root/swift_output/internlm3-8b-lora/v5-20250622-155801/checkpoint-62-merged:是 sft 合并权重后的路径

评测命令:

CUDA_VISIBLE_DEVICES=0 \
swift eval \
    --model /root/swift_output/internlm3-8b-lora/v5-20250622-155801/checkpoint-62-merged \
    --eval_backend Native \
    --infer_backend pt \
    --eval_dataset general_mcq \
    --dataset_args '{"general_mcq": {"local_path": "/root/datasets/eval", "subset_list": ["newformat_sft_test_data"]}}'

上传到 魔搭社区(可跳)

网址:ModelScope 魔搭社区

1)创建模型

2)上传模型

token获取:ModelScope 魔搭社区

# feilieren/InternLM3-8B-paper-classify-Lora:为自己在魔搭社区创建的模型(个人名称/模型名称)
# /root/swift_output/internlm3-8b-lora/v5-20250622-155801/checkpoint-62-merged:合并权重后的模型参数路径
# YOUR-MODELSCOPE-TOKEN:要替换成自己的 魔搭社区token
modelscope upload feilieren/InternLM3-8B-paper-classify-Lora /root/swift_output/internlm3-8b-lora/v5-20250622-155801/checkpoint-62-merged --token YOUR-MODELSCOPE-TOKEN


网站公告

今日签到

点亮在社区的每一天
去签到