1.3.2 对齐模型实例
对齐模型是在基座模型的基础上,针对特定任务进行训练和优化的模型。模型对齐的过程通常包含监督微调(Supervised Fine-Tuning,SFT)和强化学习(Reinforcement Learning,RL)两个步骤。在监督微调阶段,通过标注过的数据集进行有监督学习,使模型遵从人类的指令完成特定任务,例如文本分类、命名实体识别、情感分析等;而强化学习阶段则进一步优化模型的性能,通过奖励机制使模型在特定任务上的表现更加精准和高效。具体的方法和技术细节将在后续章节中详细介绍。对齐过程使得模型在特定任务上的表现更加优秀,同时保持了基于大量无监督学习得到的通用性知识。表1-2汇总了一些典型的经过对齐后的大模型。
随着LLaMA系列基座模型及大模型社区的发展,基于LLaMA系列的对齐模型纷纷涌现出来,极大地丰富了该领域的研究和应用。在这一系列创新中,Alpaca[10]和Vicuna[11]模型尤为突出,它们代表了早期对齐模型的重要进展。
表1-2 对齐大模型
Alpaca是斯坦福大学发布的一个基于LLaMA-7B的对齐模型,其在某些评估指标上的性能接近于GPT-3.5。在模型的训练过程中,Alpaca采用了自生成指令(Self-Instruct)的方法,首先人工定义了175个种子任务,然后使用OpenAI的ChatGPT API生成了5.2万个示例,接着在8个A100上进行了3h的微调训练。由于采用了这种策略,Alpaca的训练成本极低,数据获取和训练过程的总成本不超过600美元。Alpaca通过自生成指令构建训练数据的方法也启发了许多其他研究人员和团队收集ChatGPT API的数据。
在Alpaca模型发布后,加利福尼亚大学伯克利分校、卡内基-梅隆大学和斯坦福大学等机构的研究者联合发布了Vicuna模型。Vicuna也是基于LLaMA进行对齐的模型,包含7B和13B参数两个版本。与Alpaca不同,Vicuna采用了ShareGPT收集的对话数据进行模型微调。具体来说,这些数据包括11万个用户分享的与ChatGPT的对话记录。由于这些数据由真实用户提供,因此其多样性更好,且数据量更大,使得Vicuna在评估中的性能优于Alpaca等模型。例如,在使用GPT-4进行评估时,Vicuna-13B的性能达到了ChatGPT和Bard的90%以上,并且在90%的情况下都优于LLaMA和Alpaca等其他模型。
某些垂直领域的对齐模型正成为一股不可忽视的力量,它们通过专注于特定行业的知识和数据,为行业专业人士提供了更为精准和实用的工具。在这一趋势中,本草[12]和Lawyer LLaMA[13]模型尤其值得关注,它们分别在医学和法律领域展现了对齐模型的强大潜力和实际应用价值。本草模型是基于中文医学知识的LLaMA对齐模型,项目团队利用医学知识图谱和ChatGPT API构建了中文医学相关的数据集,通过对大模型进行训练,提高了其在医疗领域问答的效果。Lawyer LLaMA是一个法律领域的大模型,该模型同样基于LLaMA,通过在大规模法律语料上进行训练,系统地学习了中国的法律知识体系,掌握了中国法律知识,可以以通俗易懂的语言进行基础的法律咨询。