DeepSeek R1复现

发布于:2025-02-10 ⋅ 阅读:(40) ⋅ 点赞:(0)

已知复现版本

伯克利团队低成本复现R1-Zero

  • 项目情况:UC伯克利博士生潘家怡和另两位研究人员在CountDown游戏中复现了DeepSeek R1-Zero,项目名为TinyZero。

  • 复现成果:通过强化学习(RL),验证了3B的基础语言模型能够自我验证和搜索,且成本不到30美金。

  • 实验发现从1.5B开始,模型学会了搜索、自我验证和修正其解决方案,从而能够获得更高的分数。此外,还发现额外的指令微调(SFT)并非是必要的。

http://github.com/Jiayi-Pan/TinyZero

HuggingFace团队推进Open R1项目

  • 项目情况:HuggingFace团队启动Open R1项目,旨在复刻DeepSeek R1所有pipeline,包括训练数据、训练脚本等。

  • 复现进展:项目已成功复现DeepSeek在MATH-500基准测试中的评估结果。目前,Open R1项目正在按照计划分步骤进行,包括用DeepSeek-R1蒸馏高质量语料库来复制R1-Distill模型、复制构建R1-Zero的纯强化学习pipeline以及通过多阶段训练过渡到RL版本。

  • 社区贡献:Open R1项目吸引了社区的广泛关注和参与,GitHub仓库星标已冲破3.4k,斩获255个fork。

https://github.com/huggingface/open-r1 



 

港科大团队高效复现R1-Zero和R1

  • 项目情况:港科大助理教授何俊贤的团队仅用8K样本,在7B模型上复刻出了DeepSeek-R1-Zero和DeepSeek-R1的训练,项目地址为

  • https://github.com/hkust-nlp/simpleRL-reason

  • 复现成果:模型在复杂的数学推理上取得了十分强劲的结果,如在AIME基准上实现了33.3%的准确率,在AMC上为62.5%,在MATH上为77.2%。

  • 实验发现:验证了额外的指令微调(SFT)并非是必要的。此外,还发现具体的RL算法并不重要,PPO、GRPO、PRIME等算法中,长思维链(Long CoT)都能够涌现,且带来不错的性能表现。

 

1、git clone trl 源码

在trl强化学习训练框架中,已实现grpo算法

2、修改grpo.py文件

备注:通过remove_unused_columns=False,才能将自定义字段传到loss计算中

 3、修改grpo_trainer.py

以下参考simpleRL-reason重新修改

添加格式和正确性评价函数

 

4、数学答案准确性评价

4、训练脚本

(1)相对路径脚本:

(base) root@autodl-container-20d84f9474-4b49b6f6:~/autodl-tmp/hzh/trl/trl#

python scripts/grpo.py  --model_name_or_path /home/models/Qwen2.5-0.5B-Instruct --output_dir 0.5B_GRPO --dataset_name xxx --per_device_train_batch_size 1 --gradient_accumulation_steps 2 --use_peft True

(2)绝对路径脚本

/root/miniconda3/bin/conda run -p /root/miniconda3 --no-capture-output python /root/autodl-tmp/hzh/trl/trl/scripts/grpo.py --model_name_or_path /home/models/Qwen2.5-0.5B-Instruct --output_dir 0.5B_GRPO --dataset_name xxx --per_device_train_batch_size 1 --gradient_accumulation_steps 2 --use_peft True

备注:这里的reward_model_name_or_path 可不传,数据集使用的是本地的路径,传的路径不起作用。

训练过程数据如下:


网站公告

今日签到

点亮在社区的每一天
去签到