1.2.2 训练大模型的挑战
挑战1:收集海量且多样化的数据。
训练数据的来源、涵盖的主题甚至使用的语言都要非常广泛。虽然从互联网上获取的文本极大地增加了训练数据的规模,但由于这些训练数据良莠不齐,如何对其进行清洗从而避免训练的大模型有偏差,成为非常重要的课题。除了上述大量的非标注语料,大模型的某些训练阶段还会用到标注语料,因此会涉及一些和数据标注平台的合作。比如,Meta在训练大模型的时候曾与亚马逊Mechanical Turk合作;OpenAI在训练GPT系列模型的时候曾经与Upwork和Scale AI合作。
以目前大模型对训练数据的消耗速度,高质量语言数据预计在2026年就会耗尽,而低质量语言数据预计在2050年耗尽,视觉图像数据预计在2060年耗尽[6]。在可预见的未来,新的高质量的训练数据只会随着时间线性增长,但模型效果线性增长往往需要指数增长量级的训练数据,如何缓解高质量数据紧缺的问题是一个重要的课题。
挑战2:工程难度大。
千亿参数量的大模型的训练往往需要一个月甚至数个月。在训练这种参数规模的大模型的时候,由于模型本身和训练数据都不可能存储在某个单一的计算节点上,必须采用分布式并行训练。多种并行策略共同使用带来的复杂性,对训练的硬件基础设施和算法设计都提出了极高的要求。训练的过程还涉及优化方法的选择以及对应的超参数配置等一系列挑战。另外,大模型的训练过程并不稳定,这种不稳定性会随着模型参数规模的增加急剧上升,训练失败的概率也会相应增加。这些都对大模型训练人员的知识储备和工程实践经验提出了很高的要求。
挑战3:训练成本高。
目前训练单个大模型的成本在300万美元到3000万美元之间。预计到2030年,在大型数据集上训练大模型的成本将增加至数亿美元。由于训练所用的数据集的规模越来越大,以及需要更强的算力来训练更为强大的模型,只有极少数的大型科技企业才能负担得起大模型的开发费用。