前言
为何写作本书
自人类在20世纪40年代发明第一台计算机以来,计算机科学一直在高速发展。在过去的几十年里,计算机的计算速度和存储容量都大幅提高,促进了人工智能(Artificial Intelligence,AI)技术的发展和应用。随着深度学习技术的蓬勃发展,自然语言处理迅速崛起为人工智能领域的核心研究方向。在这个过程中,大语言模型(Large Language Model,LLM,本书简称为“大模型”)应运而生,成为自然语言处理领域近年来的一个重要成果。2022年11月30日,OpenAI推出新一代大模型ChatGPT,它表现出了令人惊艳的对话效果,回复有条理、有逻辑且多轮对话效果出色,引起了人们的广泛关注。
ChatGPT的出圈引发了许多人对它和大模型工作原理的好奇。有人误以为ChatGPT的工作方式类似于搜索引擎,背后有一个存储海量文本的“数据库”,ChatGPT通过在库中检索相关内容与用户进行交互。事实上并非如此,ChatGPT更像是一个读过海量书籍的智者,在读懂了所有内容之后,再将这些内容按照人们期望的方式进行回复。鉴于大家认识上的误区,为了帮助大家深入了解ChatGPT是什么,它是如何工作的,又将如何改变我们的生活,笔者萌生了写作本书的想法。
本书主要内容
本书共10章,从逻辑上分为四部分:
第一部分(第1~4章)由语言模型的基本概念入手,介绍了大模型的基础构件、技术发展的脉络及范式,以及模型对齐的方法。ChatGPT是一个大模型,而大模型首先是一个语言模型,语言模型是一种基于机器学习技术的自然语言处理模型,它可以学习语言的概率分布,从而实现对语言的理解和生成。大模型是一种新的技术范式,相较于传统语言模型,它不仅 “大”,而且可以理解人类的意图,并完成相应的指令与任务,也就是所谓的“对齐”与“指令跟随”。经过精心的训练,大模型甚至可以完成推理、规划和具有创造性的复杂任务。
第二部分(第5章和第6章)详细介绍了大模型的评测与分布式训练的基本原理。大模型的训练离不开算法、数据和算力的支撑,是一项需要大量投入的系统性工程。首先,研究者需要设计精巧的算法使得模型可以有效处理海量的数据,从而解决语言的复杂性和上下文相关性等挑战。其次,数据也是训练大模型的关键因素,这意味着我们需要收集、清洗和标注大规模语料库,以获得足够的高质量训练数据。最后,随着数据和模型规模的扩大,训练模型所需要的算力和硬件资源也随之不断增加。得益于分布式训练和并行计算优化,大模型的训练变得可行。
第三部分(第7~9章)着重介绍了大模型在垂直场景的应用、知识融合与工具使用的方法及大模型优化的高级话题。大模型具有广泛的应用前景,相较于传统语言模型,大模型的适用场景更多,性能也更出色。它既可以作为客服助手,扮演各种角色与用户进行交互并完成任务,又可以用于人工智能生成,协助用户撰写文章或报告,还可以用于翻译任务,理解源语言的内容并生成目标语言翻译结果。此外,它还可以作为生产力工具编写代码,大幅提升程序员的编码效率。随着大模型技术的发展,这些应用的上限也在不断取得突破,同时有更多创新型应用不断涌现。
第四部分(第10章)展望了大模型未来的发展方向和挑战。尽管大模型在众多领域展现出卓越的性能,但也存在一些局限性。例如,大模型在生成输出时常常会编造一些事实,即使这类错误属于罕见情况,也对回答的可信度和可靠性造成了严重影响。此外,安全性问题也备受关注。若大模型被不当使用,可能成为虚假新闻或钓鱼邮件的源头,甚至成为不法分子进行违法犯罪活动的“帮凶”。
全书力求系统和完备,在使各章内容逐步递进的同时,也兼顾了各章内容的独立性。读者可根据需求按章顺序学习或选择特定内容深入研究。希望本书能够帮助读者深入了解大模型相关知识,同时能够促进大模型技术的发展和应用。
本书读者对象
·计算机科学、人工智能、自然语言处理等领域的专业人士和学者。
·对大模型感兴趣的普通读者。
资源和勘误
限于作者水平,书中难免存在疏漏或不足之处,欢迎读者批评指正。读者可通过电子邮件llmbookfeedback@gmail.com联系我们,期待收到读者的宝贵意见和建议。
苏之阳
2024年5月