大语言模型:原理、应用与优化
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

4.2 基于人类反馈的强化学习