1.3.3 ChatGPT模型的训练过程_解构ChatGPT-QQ阅读男生历史网

上QQ阅读APP看书，第一时间看更新

1.3.3　ChatGPT模型的训练过程

第一阶段，训练有监督的策略模型。模型本身在学习过程中难以判断生成内容是不是高质量的结果，为了让GPT-3.5能够具备理解指令的意图，工作人员使用有监督的微调训练了一个初始模型。OpenAI请来了约40人的人工智能训练师团队，由训练师分别扮演用户和聊天机器人，产生人工精心编排的多轮对话数据。像是人类老师给出带有个人偏好的参考答案，并将这些答案交回给GPT-3.5模型进一步学习。

第二阶段，训练回报模型（Reward Mode，RM）。这个阶段主要是通过人工标注训练数据来训练回报模型。在数据集中随机抽取问题，使用第一阶段生成的模型，对于每个问题，生成多个不同的回答。人类训练者对这些结果综合考虑给出排名顺序。这一过程类似人类老师对AI经过调整的学习成果进行考核，形成奖惩机制。

接下来，使用这个排序结果数据来训练回报模型，即训练AI适应奖惩机制，主动去产生得分高的答案。调节参数使得高质量回答的打分比低质量的打分要高，这一步使得GPT模型从命令驱动转向了意图驱动。

第三阶段，采用近端策略优化（Proximal Policy Optimization，PPO）强化学习来优化策略。PPO的核心思路在于将Policy Gradient中On-policy的训练过程转化为Off-policy，即将在线学习转化为离线学习。这一阶段利用第二阶段训练好的奖励模型，靠奖励打分来更新预训练模型参数。在数据集中随机抽取问题，使用PPO模型生成回答，并用上一阶段训练好的回报模型给出质量分数。将回报分数依次传递，由此产生策略梯度，通过强化学习的方式更新PPO模型参数。相当于通过题海战术，在不断重复中巩固AI取得好成绩的能力。

在此机制下，持续重复第二和第三阶段多轮人类反馈的强化学习，可以逐步提升输出质量。使AI在人类“教育”下自己进步，学会更高超的对话技巧和产出能力，如图1-6所示。

图1-6　ChatGPT的训练流程