序
很高兴为张奇教授、桂韬副研究员、黄萱菁教授合著的《自然语言处理导论》一书写序。
随着ChatGPT面世并迅速风靡全球,AI又一次进入寻常百姓家。而ChatGPT的一个重要支持正是自然语言处理中的大规模语言模型GPT。
所谓“自然语言”指的就是人们日常使用的语言,如中文、英文等1。形象地说,自然语言处理研究的就是如何让计算机能够像人类一样,具有使用自然语言的能力,能与人类用自然语言进行交流。
由于自然语言是人类最方便、最重要的交流方式,是描述知识、传承文化的重要工具,因此对自然语言处理的研究几乎从计算机一出现就开始了。这一领域也一直是人工智能研究的重要分支。自然语言处理的发展历史悠久,涉及的面很广,积累了大量的成果,但这些成果分散在多个领域。因此,一本全面、系统介绍自然语言处理的书是非常必要的。写这样的书也是一项艰巨的任务,需要从大量已有成果中筛选出既有代表性,又能全面反映领域发展全貌的材料,并将它们合理地组织起来。
本书作者长期从事自然语言处理方面的教学和科研工作,积累了丰富的经验,用了近三年时间对内容和结构进行多次讨论和修改,终于在2023年初完成初稿。
本书共14章,分为3个部分:基础技术、核心技术和模型分析。第1部分讨论的是语言学中的问题,按处理对象粒度从小到大,依次为词汇分析、句法分析、语义分析、篇章分析和语言模型。第6章“语言模型”有关于ChatGPT的基础GPT的介绍和ChatGPT实现过程的介绍。第2部分介绍自然语言处理的主要应用及相应的技术,包括信息抽取、机器翻译、情感分析、智能问答、文本摘要和知识图谱。第3部分为模型分析,主要介绍模型稳健性和模型可解释性。
本书以问题或任务为主线进行讲解,让读者更好地了解同一类问题可以从不同的视角、用不同的方法解决。通过比较这些方法的优劣加深对任务和方法的理解,并提升鉴赏能力及举一反三能力。
从结果来看,基于大规模语言模型的机器学习方法在几乎所有自然语言处理任务上都取得了很好的效果,有些甚至超过了人类水平,因而已成为当前的主流方法。但这种基于大模型的方法也有它自身的局限性。一个明显的问题是它的参数极多,目前已高达数千亿个,人们极难理解这些参数的含义。结果虽好,但难以理解和解释。另外,有些精度很高的大模型,仅改变它的几个参数,就会使它的性能下降很多。换言之,不稳健。上述两点正是本书第3部分要介绍的内容,即模型的稳健性和可解释性。
总之,自然语言处理是人工智能的重要组成部分。本书全面系统地介绍了自然语言处理的基础概念、任务和方法,可作为高校相关专业高年级学生和研究生的教材,也可供对这一领域感兴趣的读者参考。
由ChatGPT引起的AI热潮还在继续,随着大量人力、物力的投入,AI研究和应用的又一个春天正在到来。
吴立德
复旦大学首席教授
2023年3月10日