1.introduction
大部分工作基于llama,GPT3.5和GPT4被用来生成高质量对齐数据,stanford alpaca利用self-instruct,基于175个种子任务使用gpt3.5生成了52000个样本,llama-gpt4利用gpt4生成了更高质量的回答,vicunna使用chatgpt在70000个真实用户对话中训练了llama,而Baize使chatgpt能够生成多轮对话,
本文评估数据集包含了1000个中文指令样本,涵盖了9个真实用户场景。扩展了llama的词汇表,并在中文语料上进行了预训练。
2. related work
2.1 instruction tuning
指令调优旨在通过教导语言模型遵循自然语言来提高其性能,通过将所有任务格式化为自然语言,生成语言模型能够处理几乎所有的自然语言处理任务。
3. collect conversation data
利用chatgpt生成指令数据。
4. evaluation data
评估数据来自chinese-llama-alpaca,
5.Extend vocabulary
llama在词汇构建中对中文语言优化不足,一个汉字可能会被分割成2-3个字节的标记。使用sentencepiece在1200w行中文文本上基于字节对编码(BPE)算法训练了一个分词器,并将其词汇表大小设置为5w,将训练得到的新词汇与原始llama词汇合并,得到一个新的词汇表,共有79458个标记,之后调整词嵌入的大小,并在34亿个中文本词汇上进一步预训练llama,其他参数保持不变,在5000行中文文本上测试了扩展的分词器和原始分词器,每行的平均标记数从733减少到291.
6.Experiments
6.1 base model
llama、llama-ext:扩展原始llama词汇表,并在其中预训练了3.4B个中文词汇,仅更新词嵌入。
6.2 training settings
8个A100-80G GPU上训练。
6.3 Dataset
Alpaca-3.5-en、Alpaca-3.5-zh(英文的中文翻译版本)、Alpaca-4-en、Alpaca-4-zh、shareGPT、Belle-3.5:50w
6.4 Metric
chatgpt被要求评估有遵循指令模型生成的回复,对于所有指令,chatgpt给出一个介于0-1之间的分数,其中0最差,1最好。
6.5 Main results