cd /tmp/code/
嗯嗯 基于llamafactory框架微调Qwen3 4b两次保存lora参数
如果您需要使用自定义数据集,请在 data/data_info.json
中添加自定义数据集描述并确保 数据集格式 正确,否则可能会导致训练失败。
vim dataset_info.json
"Omni-MATH-reward": {
"hf_hub_url": "KbsdJames/Omni-MATH",
"ms_hub_url": "AI-ModelScope/Omni-MATH",
"file_name": "reward_train.jsonl",
"ranking": true,
"columns": {
"prompt": "instruction",
"query":"input",
"chosen":"chosen",
"rejected":"rejected"
}
},
bash examples/train_lora/qwen3_4b_lora.sh
llamafactory-cli train examples/train_lora/llama3_lora_ppo-Copy1.yaml
llamafactory-cli: 未找到命令
请
pip install -e ".[torch,metrics]"
UltraFeedback: Mirror of https://huggingface.co/datasets/openbmb/UltraFeedback
总计 84
drwxr-xr-x 11 root root 4096 5月 9 19:26 ./
drwxrwxrwt 1 root root 85 5月 9 18:15 ../
-rw-r--r-- 1 root root 733 5月 8 21:46 22.sh
-rw-r--r-- 1 root root 178 5月 8 15:48 33.sh
-rw-r--r-- 1 root root 803 5月 8 21:35 44.sh
-rw-r--r-- 1 root root 128 5月 8 16:24 55.py
-rw-r--r-- 1 root root 736 5月 8 22:25 66.sh
-rw-r--r-- 1 root root 1051 5月 9 16:07 convert_dp.py
-rw-r--r-- 1 root root 1293 5月 9 12:25 convert.py
-rw-r--r-- 1 root root 0 5月 9 12:17 convert_to_preference.py
drwxr-xr-x 6 root root 114 5月 9 19:20 datasets/
drwxr-xr-x 2 root root 335 5月 9 19:22 .ipynb_checkpoints/
drwxr-xr-x 12 root root 4096 5月 9 11:53 LLaMA-Factory/
drwxr-xr-x 14 root root 4096 5月 8 22:22 output/
drwxr-xr-x 2 root root 4096 5月 8 14:27 Qwen3-4B/
drwxr-xr-x 3 root root 30 5月 8 15:09 result/
-rw-r--r-- 1 root root 576 5月 9 14:38 rm.sh
drwxr-xr-x 5 root root 4096 5月 9 19:27 Skywork-o1-Open-PRM-Qwen-2.5-1.5B/
drwxr-xr-x 12 root root 4096 5月 8 14:25 swift/
-rw-r--r-- 1 root root 1341 5月 9 19:26 task.txt
drwx------ 4 root root 43 5月 8 14:40 .Trash-0/
-rw-r--r-- 1 root root 2287 5月 9 12:26 un.txt
-rw-r--r-- 1 root root 19541 5月 9 12:05 ww.py
发现有个写好的但不知道有没有用
LLaMA-Factory/examples/train_lora/llama3_lora_ppo-Copy1.yaml
LLaMA-Factory/examples/train_lora/qwen3_4b_lora.sh