近年来,深度学习领域涌现出许多优秀的模型和技术。这些里程碑式的工作推动了自然语言处理领域的飞速发展,奠定了大模型的技术基础。
本章主要介绍构成大模型的基本组件和基础算法。我们首先从Seq2Seq网络结构入手,介绍生成模型的基本结构;然后,深入探讨注意力机制解决的问题;随后,进一步剖析基于注意力机制构建的Transformer模型的结构,并特别介绍多头注意力机制和位置编码的细节,还阐述常见的词元化方法;最后,详细讲解文本生成中的不同解码策略及其应用。