1.2.3 大模型的应用
传统语言模型和大模型的应用有着明显的区别。如上所述,传统语言模型主要用于计算一段单词序列的概率,我们将这一应用方式定义为“测量”。而大模型侧重于根据上下文信息产生新的内容,我们将这一应用方式定义为“生成”。如果把传统语言模型比作测量用的尺子,大模型则更像是可以产生各种布匹的织布机,两者在应用上有着巨大的差别,但是又在基本的构成元素上有着很强的关联性。
大模型可以应用于许多领域,这里介绍一些大模型的典型应用。如图1-4所示,搜索引擎可以使用大模型来提供更直接、更贴近人类语言交互的答案。这些模型可以帮助搜索引擎更好地理解用户的查询,并返回更加准确、详细的结果。除此之外,大模型可以用于改善聊天机器人(Chatbot)的效果,可以更加准确地理解用户的意图,并生成更为相关的回复,从而提供更好的客户体验。在软件开发领域,大模型可以帮助软件开发人员生成软件代码,提高软件系统的研发效率。在法律领域,大模型可以进行法律释义,并提供更好的法律建议,从而帮助从业人员更好地理解法律文本。如今,大模型的应用已经百花齐放,在非常多的领域和行业中重塑着产品和体验。
图1-4 大模型与搜索引擎相结合
值得一提的是,除了上述常见的功能,大模型还具有领域绑定的特性,即通过一些提示信息来扮演特定领域的角色的能力。例如,为了让大模型扮演唐朝诗人李白的角色,我们可以在对话的一开始插入一条问候语:“嗨,我是诗人李白。”在接下来的交互中,用户即可与李白的角色进行交流,如图1-5所示。利用大模型的这个能力进行商业化探索的一个典型案例是character.ai[1]。在这个平台上,用户可以创建“虚拟人物”,然后将其发布到社区与其他人聊天。其中,许多角色是历史或者现实生活中的名人;有些是为了特定任务而制作的,如协助写作或扮演游戏角色。用户可以与一个虚拟角色聊天,或组织包含多个虚拟角色的讨论组,或同时与虚拟角色或其他用户聊天。
图1-5 大模型的领域绑定
大模型的模型结构及其思想对很多传统的人工智能应用都有启发意义。例如,OpenAI提出的Whisper语音识别系统[7]基于Transformer架构,使用数十万小时的多语言数据以及多种任务类型的数据进行训练。Whisper与大模型的结构非常类似,也支持多种不同的任务,比如可以进行多种语言的语音转录,以及将这些转录的文本翻译成英语。类似地,OpenAI在2024年提出了基于Transformer架构的文生视频(Text-To-Video)模型Sora[2],该模型可以基于用户输入的文本生成对应的高质量视频,并且支持多种时长、视角和清晰度。