1.3 ChatGPT和GPT-4的成长故事
学习一个世界模型,从表面上看,神经网络只是在学习文本中的统计相关性,但实际上,这些就足以把知识压缩得非常好。神经网络所学习的是它在生成文本的过程中的一些表述。文本实际上是这个世界的一个映射,因此神经网络学习的是有关这个世界多方面的知识。
—— Ilya Sutskever
1.3.1 GPT系列的逆袭之路
自然语言处理领域近年来取得了显著进展,其中最具代表性的就是各种大语言模型技术的突破。虽然早期GPT并未受到广泛关注,但随着模型的不断优化和扩展,GPT已在自然语言处理领域崭露头角。接下来,我们来看一看GPT系列的逆袭之路,包括它与其他大语言模型的差异、早期的不足及后期优化的过程。
GPT与其他大语言模型的差异
在深度探讨GPT与其他大语言模型的区别之前,首先要对各类模型的基本特性和优劣进行全面理解。这将有助于更深入地理解GPT与BERT、LSTM等模型的差异。
相较于GPT,BERT模型采用了一种双向Transformer架构,并且在训练过程中运用了掩码语言建模和下一句预测的方法,因此能够更全面地捕捉双向上下文信息,然而这也导致它在生成任务上的表现力相对较弱。反观GPT,它采用了单向Transformer架构,专注于生成任务,但在捕捉双向上下文信息方面的能力相对较弱。BERT的双向Transformer架构,使模型在处理文本时能够同时考虑上下文信息,因此在理解文本语义和句法结构方面具有极大的优势,但由于BERT模型在训练过程中采用掩码语言建模方式,它生成任务的能力受到了限制。
与之相反,GPT 的单向 Transformer 架构,使模型在处理文本时只需考虑上文信息。这种设计简化了模型的训练过程,从而让GPT在生成任务上极具优势,但也限制了它在捕捉双向上下文信息方面的能力。
在GPT和BERT出现之前,长短期记忆网络是处理序列任务的主流方法。然而,随着GPT和BERT等Transformer模型的出现,长短期记忆网络在许多任务上的优势逐渐被削弱。相比之下,GPT和BERT等Transformer模型在并行计算、长距离依赖等方面具有更大的优势。长短期记忆网络作为一种经典的循环神经网络结构,能够有效地处理序列数据,通过引入门控机制解决了传统循环神经网络中的长程依赖问题。然而,长短期记忆网络在处理长序列时仍受到计算复杂度和并行性的限制。
GPT早期的不足
GPT-1
2018年6月11日,OpenAI发布了一篇题为“Improving Language Understanding by Generative Pre-Training”的研究论文,详细阐述了“基于 Transformer 的生成式预训练模型”(Generative Pre-trained Transformer,GPT)的概念。由于后续又陆续推出了更多模型,所以为了区分,这里称之为GPT-1。当时,最先进的自然语言生成模型主要依赖于大量手动标注数据进行监督学习。这种依赖于人类监督学习的方法限制了模型在未经精细标注的数据集上的应用。同时,许多语言(如斯瓦希里语或海地克里奥尔语)由于缺乏足够的语料库,导致实际应用(如翻译和解释)的难度较大。此外,训练超大型模型所需的时间和成本也相当高。相比之下,GPT-1 提出了一种被称为“半监督”(semi-supervised)的方法,后来该方法被普遍称为“自监督”:首先在无标签数据上训练一个预训练模型,然后在少量标注数据上训练一个用于识别的微调模型。GPT-1 的训练数据源于BookCorpus,这是一个包含7000本未出版图书的语料库,总大小为4.5 GB。这些书由于尚未发布,因此很难在下游数据集中找到,这有助于验证模型的泛化能力。这些书覆盖了各种不同的文学流派和主题,模型参数数量达到 1.2 亿个。自此,研究人员开始相信大模型的力量,大模型时代就此开启。作为GPT系列的起点,GPT-1采用了单向Transformer架构并进行无监督预训练。尽管在当时,GPT-1在某些自然语言处理任务上取得了不错的成绩,但它的规模和性能相对有限,且在捕捉双向上下文信息方面较为薄弱。
GPT-1的不足之处主要体现在以下四个方面。
● 规模限制:GPT-1 的规模较小,参数数量约为 1.17 亿个。这种规模限制使得GPT-1在面对复杂任务时性能受限,也影响了模型的泛化能力。
● 双向上下文信息捕捉能力不足:由于GPT-1采用单向Transformer架构,因此它在处理文本时只能考虑给定词之前的上下文信息,这在某种程度上限制了它在理解文本语义和句法结构方面的能力。
● 训练数据规模问题:GPT-1的训练数据规模相对较小,导致它在面对复杂任务时性能欠佳。此外,训练数据规模的不足也影响了模型在泛化能力方面的表现。
● 训练数据多样性问题:GPT-1的训练数据多样性不足,导致模型在处理特定领域和多语言任务时表现不佳。例如,GPT-1在处理特定领域文本和多语言任务时可能无法准确捕捉到相关知识。
GPT-1和BERT模型的对比如表1-1所示。
表1-1 GPT-1和BERT模型的对比
GPT的优化之路
1.GPT-2
2019年2月,OpenAI在GPT-1的基础上又发布了GPT-2,并发表了论文“Language Models are Unsupervised Multitask Learners”。GPT-2在许多方面都得到了优化和扩展,OpenAI去掉了GPT-1阶段的有监督微调(Fine-tuning),聚焦无监督、零样本学习(Zero-shot Learning)。模型参数的数量从1.17亿个增加到了15亿个,训练数据规模也得到了大幅扩充。这使得GPT-2在自然语言生成任务上表现出色,甚至引发了一些关于AI生成内容的伦理讨论。
与GPT-1相比,GPT-2的优势体现在于以下两方面。
● 参数扩展:GPT-2的参数数量达到了15亿个,这使模型在处理复杂任务时性能更强。同时,参数数量的增加也提高了模型的泛化能力。
● 训练数据扩展:GPT-2的数据集为WebText,WebText是一个包含800万个文档的语料库,总大小为40GB。这些文本是从Reddit上投票最高的4500万个网页中收集的,包括各类主题和来源,例如新闻、论坛、博客、维基百科和社交媒体等,其中也包括更多特定领域的文本和多语言内容。这使GPT-2在处理特定领域和多语言任务上表现更加出色。
2.GPT-3
2020年5月,OpenAI发表了关于GPT-3的论文“Language Models are Few-Shot Learners”。GPT-3的模型规模进一步扩大,拥有1750亿个参数,训练数据覆盖了整个互联网的大部分文本信息。改进的算法、强大的算力和更多的数据,推动了 AI 革命,让GPT-3成为当时最先进的语言模型。GPT-3在许多NLP数据集上都有很强的性能,包括翻译、问题解答和完形填空等任务,以及一些需要动态推理或领域适应的任务(如解译单词,以及在句子中使用一个新单词或执行算术运算)。它在多个NLP任务上表现出的惊人性能甚至可以和人类专家相媲美。
GPT-3的优势体现在以下两方面。
● 规模优势:GPT-3的规模达到了前所未有的水平,拥有1750亿个参数。这种规模优势使GPT-3在处理各种复杂任务时具有更强的性能,同时提高了模型的泛化能力。
● 训练数据优势:GPT-3的数据集为570 GB的大规模文本语料库,其中包含约4000亿个标记。这些数据主要来自CommonCrawl、WebText、英文维基百科和两个书籍语料库(Books1和Books2)。训练数据包括了整个互联网的大部分文本信息,这使得模型在学习丰富的语言知识方面具有更大的优势。此外,训练数据的扩充也使得GPT-3在处理特定领域和多语言任务上的表现更加优异。
从GPT-1到GPT-3的模型对比如表1-2所示。
表1-2 GPT-1、GPT-2和GPT-3模型对比
GPT的优越性在于其深度和广度。Open AI的开发团队对数据质量进行了精细打磨,例如剔除了重复和低质量文本,使GPT能够扎根于高质量语言知识的沃土。同时,他们也通过加入更多领域的特定文本以及多语言和多文化内容,扩大了GPT的视野和理解能力,使它在特定场景和多语言任务中表现出色。
GPT在生成任务上的优越性源于其独特的单向Transformer架构,使它在自然语言生成任务上领先于BERT等双向Transformer模型。此外,GPT采用基于自回归语言模型的无监督预训练策略,能够通过大量无标注数据进行自我学习和提升,从而在多个自然语言处理任务上取得显著成功。
然而,GPT强大的生成能力也带来了潜在的问题,比如可能会生成不真实或有害的内容,如虚假新闻、诈骗信息等。因此,需要采取相应的技术措施和制订政策法规来确保GPT的安全使用。另外,GPT在训练过程中可能会受到训练数据中存在的偏见的影响,因此我们需要在训练过程中关注偏见问题,并采用相应的策略来减轻偏见对模型的影响。
对于未来而言,GPT的发展趋势和挑战在于提高模型性能、降低计算资源消耗和提高模型可解释性。为了使GPT在更多任务上有优异的表现,需要不断优化模型架构和训练策略,提高模型的性能。为了降低计算资源消耗,可以研究如何提高模型的计算效率,或者采用知识蒸馏等技术来压缩模型的规模。另外,为了增强GPT在实际应用中的可靠性,需要研究如何提高模型的可解释性。
总而言之,GPT 在不断地自我挑战和优化,它在自然语言处理领域的潜力和成果无疑是显著的。然而,我们也需要关注GPT面临的伦理与安全问题,确保它能够安全可靠地为人类服务。作为一个开源项目,GPT的发展也为开源社区带来了新的机遇和挑战,推动着整个人工智能行业的进步。
1.3.2 ChatGPT产品化之旅
终于,OpenAI的明星产品ChatGPT诞生了。2022年11 月,OpenAI推出了人工智能聊天机器人程序ChatGPT,在此前的GPT基础上增加了Chat属性。开放公众测试后,仅上线两个月,ChatGPT的活跃用户数就超过一亿,而达到这个用户数量,电话用了75年,手机用了16年,互联网用了7年。在继续介绍之前,先用图1-4中的ChatGPT的产品化历程来概括一下ChatGPT的诞生过程。
图1-4 ChatGPT的产品化历程
2022年2月,OpenAI进一步强化了GPT-3,推出了InstructGPT模型,采用来自人类反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF),并采用高效的近端策略优化(Proximal Policy Optimization,PPO)算法作为强化学习的优化技术,训练出奖励模型(reward model)去训练学习模型,赋予GPT理解人类指令的能力。
2022年3月15日,OpenAI发布了名为text-davinci-003的全新版本GPT-3,据称比之前的版本更加强大。该模型基于截至2021年6月的数据进行训练,因此比之前版本的模型(训练时使用的是截至2019年10月的数据)更具有时效性。8个月后,OpenAI开始将该模型纳入GPT-3.5系列。有五款不同的模型属于GPT-3.5系列,其中4款分别是text-davinci-002、text-davinci-003、gpt-3.5-turbo和gpt-3.5-turbo-0301,它们是针对文本任务而优化的;另外一款是code-davinci-002,即Codex的base model,它是针对代码任务而优化的。
与GPT-3相比,GPT-3.5增加了以下功能。
● 代码训练:让GPT-3.5模型具备更好的代码生成与代码理解能力,同时让它间接拥有了进行复杂推理的能力。
● 指示微调:让GPT-3.5模型具备更好的泛化能力,同时使模型的生成结果更加符合人类的预期。
最新版本的GPT-3.5模型gpt-3.5-turbo于2023年3月1日正式发布,随即引起了人们对GPT-3.5 的极大兴趣。gpt-3.5-turbo 和 gpt-3.5-turbo-0301 的主要区别是,gpt-3.5-turbo需要在content中指明具体的角色和问题内容,而gpt-3.5-turbo-0301更加关注问题内容,而不会特别关注具体的角色部分。OpenAI基于gpt-3.5-turbo-0301(官方日志显示,此版模型将于2024年6月13日弃用,改用较新版本的gpt-3.5模型)进一步优化对话功能,ChatGPT就此诞生。
关于ChatGPT的技术原理,由于OpenAI还未公开论文(截至本书编写时),可以通过官方博客的简短描述来了解:
“我们使用RLHF来训练这个模型,使用与InstructGPT 相同的方法,但数据收集设置略有不同。我们使用有监督微调训练了一个初始模型:AI训练师提供对话,他们同时扮演用户和AI助手的角色。我们让 AI 训练师获得模型书面建议,以帮助他们撰写回复。将这个新的对话数据集与InstructGPT数据集混合,并将其转换为对话格式。为了创建强化学习的奖励模型,需要收集比较数据,其中包括两个或多个按质量排序的模型响应。为了收集这些数据,还进行了 AI 训练师与聊天机器人的对话。随机选择了一个模型撰写的消息,抽样了几个备选的答案,并让 AI 训练师对其进行排名。使用这些奖励模型,可以使用近端策略优化对模型进行微调。我们对这个过程进行了多次迭代。ChatGPT是在GPT-3.5系列中一个模型的基础上进行微调而产生的,该系列于2022年初完成了训练。ChatGPT和GPT 3.5也在Azure AI超级计算基础设施上进行了训练。”
接下来将进一步对上面这段官方描述进行解读,探讨一下有监督微调如何让ChatGPT适配符合人类对话特点的新型交互接口。
虽然 ChatGPT 的训练过程加入了数以万计的人工标注数据,但与训练GPT-3.5模型所使用的数千亿Token级别的数据量相比,这些数据包含的世界知识(事实与常识)微乎其微,几乎可以忽略。因此,ChatGPT的强大功能应主要得益于底层的GPT-3.5,GPT-3.5是理想的LLM中的关键组件。那么,ChatGPT是否为GPT-3.5模型注入了新知识呢?这是肯定的。这些新知识包含在数万条人工标注数据中,主要涉及人类偏好知识而非世界知识。首先,人类在表达任务时,倾向于使用一些习惯用语。例如,人们习惯说“把下面的句子从中文翻译成英文”以表示机器翻译的需求,然而LLM并非人类,如何理解这句话的含义并正确执行呢?ChatGPT通过人工标注数据,向GPT-3.5注入了这类知识,使LLM能够更好地理解人类命令,这是它能够高度理解人类任务的关键。其次,对于回答质量的评判,人类通常有自己的标准。例如,详细的回答常被认为是好的,而带有歧视内容的回答常被认为是不好的。人类通过奖励模型(Reward Model)向LLM反馈的数据中就包含了这类信息。总之,ChatGPT将人类偏好知识注入GPT-3.5,从而实现了一个既能理解人类语言,又有礼貌的LLM。显然,ChatGPT的最大贡献在于,基本实现了理想LLM的接口层,使LLM适应人类习惯的命令表达方式,而不是反过来要求人类适应LLM,费劲地想出一个有效的命令。(这是在指示技术出现之前,提示技术所做的事情。)这大大提高了LLM的易用性和用户体验。InstructGPT/ChatGPT首先意识到这个问题,并给出了很好的解决方案,这也是其最大的技术贡献。相对于之前的少样本提示,目前的解决方案更符合人类的表达习惯,为人类与LLM进行交互提供了更自然、更高效的人机接口技术。而这必将启发后续的LLM,在易用人机接口方面继续进行创新和优化,使LLM更具服从性和人性化,进一步提升人机交互的效果和质量。
ChatGPT的各项能力来源和技术路线如图1-5所示。
图1-5 ChatGPT的各项能力来源和技术路线(根据OpenAI官方模型索引文档进行分析推测)
ChatGPT目前主要通过提示词的方式进行交互。然而,这种先进的自然语言处理技术并不仅限于人类的自然对话场景,它的实际应用远比想象中要更为广泛且复杂。ChatGPT可在多种语言任务中展现卓越性能,例如自动文本生成、自动问答、自动摘要等。在自动文本生成方面,ChatGPT能够根据输入的文本自动生成类似的内容。无论是剧本、歌曲、企划书等创意性作品,还是商业报告、新闻稿等正式文档,ChatGPT均可提供高质量的输出。在自动问答领域,ChatGPT 通过对输入问题的深度理解,为用户提供准确且有价值的答案。此外,ChatGPT还具备编写和调试计算机程序的能力,协助开发者解决编程难题。ChatGPT的高度智能化表现吸引了广泛关注。它能够撰写接近真人水平的文章,对众多知识领域内的问题给出详细且清晰的回答。这一突破性技术表明,即便是过去被认为是AI无法取代的知识型工作,ChatGPT也有足够的实力胜任,因此它对人力市场产生的冲击将是相当巨大的。这也意味着ChatGPT有潜力为各行各业带来更高效的工作方式,推动整个社会进一步发展。
作为OpenAI的一项杰出技术,ChatGPT拥有广阔的应用前景和丰富的落地生态,具体列举如下。
● 在教育领域,它能自动批改作业,推荐个性化学习资源,提供在线辅导,甚至编写教材。
● 在媒体和出版行业,它能编写新闻稿,撰写广告文案,进行内容审核,以及推荐阅读内容。
● 在金融领域,它能生成分析报告,进行风险评估,处理客户服务,乃至编写财务报表。
● 在医疗健康行业,它能整理医学研究,提供初步诊断,回答患者疑问并制订健康计划。
● 在客户服务行业,它能提供智能客服,解答问题,分析客户需求,推荐产品。
● 在人力资源行业,它能筛选简历,编写招聘广告,生成面试问题,编写培训材料。
● 在法律行业,它能提供法律建议,编写合同草案,解释法律条款,分析法律案例。
● 在旅游和酒店行业,它能定制旅行行程,编写旅游攻略,处理酒店预订,描述旅游景点。
● 在科研与技术行业,它能生成论文摘要,检索专利信息,提供合作伙伴建议,协助编写和调试程序。
● 在娱乐行业,它能生成创意作品,编写游戏对话,策划营销活动,生成社交媒体内容。
● 在互联网行业,它能进行搜索引擎优化,生成个性化搜索结果,提供智能推荐,管理社交网络,构建用户画像,管理电商平台,管理在线社区。
然而,ChatGPT并非完美无缺,OpenAI官方也指出了它存在的一些局限性和不足。比如,它可能生成看似合理但实际上错误的答案,对输入短语的微小调整可能表现出较高的敏感性,有时可能过于冗长,对含糊的查询不够敏感,以及可能对有害的指令做出回应或表现出偏见。但OpenAI正在积极寻求解决方案,并期待用户积极给予反馈,以持续优化ChatGPT。
总体来说,ChatGPT作为一款领先的人工智能聊天机器人,展现了卓越的自然语言处理能力,为各行各业带来了广阔的应用前景。尽管存在局限性,但随着技术的进步,ChatGPT必将实现更高效的工作方式,推动各行业进一步发展。
1.3.3 GPT-4和下一代GPT
从ChatGPT的介绍中我们可以看到,目前ChatGPT还有很多不足之处。那么,当很多人兴奋地关注和谈论ChatGPT时,他们讨论的到底是什么?笔者认为,人们真正关注的是对未来的期望,是像GPT-4甚至GPT-5一样强大的开放对话,多模态、跨学科技能,数不清的插件,强悍的n-shot学习能力……甚至未来真正的通用人工智能体AGI的可能性。随着ChatGPT的面世,GPT-4很快也对公众开放,AI发展历史的里程碑不断被刷新,落地应用、框架和插件层出不穷,如AutoGPT、Semantic Kernel、微软全产品系列Copilot、LangChain、斯坦福大学的研究者所进行的Generative Agents实验等。
2023年3月14日,OpenAI发布了备受瞩目的GPT-4,这一领先的大语言模型在科技领域掀起了轩然大波。OpenAI表示,GPT-4标志着公司的一个重要里程碑出现了。这是一个大型多模态模型(接受图像或文本形式的输入,输出文本),我们可以认为它的出现标志着AI第一次睁开双眼理解这个世界。在官方发布的演示视频中,OpenAI详细介绍了 GPT-4 在解决更复杂问题、编写更大规模代码以及将图片转化为文字方面的卓越能力。此外,相比于GPT-3.5(即ChatGPT所采用的模型),OpenAI承诺GPT-4将具有更高的安全性和协同性能。GPT-4在回答问题的准确性方面取得了显著提升,同时在图像识别能力、歌词生成、创意文本创作和风格变换等领域展现了更高水平的能力。此外,GPT-4的文字输入限制得以扩展至25000字,并在对非英语语种的支持上进行了优化。经过6个月的努力,OpenAI利用对抗性测试程序和从ChatGPT中积累的经验,对GPT-4进行了迭代调整。尽管该模型还有待进一步完善,但OpenAI表示,GPT-4“在创造力和协作性方面达到了前所未有的高度”,并且“能够更准确地解决难题”。虽然GPT-4在许多现实世界场景中的能力仍无法与人类相媲美,但它在多种专业和学术基准测试中达到了人类水平。总体来说,GPT-4 的表现令人叹为观止。关于AI在某些工作领域是否会取代人类,这种讨论一直在进行,GPT-4 的问世让许多行业的从业者都产生了紧迫感。毕竟,在很多方面,人类似乎已经难以与先进的AI技术抗衡。
可以先通过一张图(见图1-6)快速了解GPT-4的典型能力,其中主要包括智力、综合能力(多模态、跨学科)、大型程序编写能力,以及与真实世界交互的能力(自主使用工具)。
图1-6 GPT-4典型能力示例
通过OpenAI对GPT-4能力进行论述的官方论文“GPT-4 Technical Report”可以看到,GPT-4新增了很多能力和技术,同时也有不足和局限,接下来将逐一进行分析说明。
GPT-4的新能力
1.大规模多模态
GPT-4是一个基于Transformer的大规模多模态模型,拥有亿级参数规模。它能够处理图像和文本输入,生成文本输出,这使得GPT-4具有广泛的应用潜力,如对话系统、文本摘要和机器翻译等。总之,GPT-4可以在文本和图片处理领域发挥更大的作用。
2.超出人类级别的性能
GPT-4在各种专业和学术基准测试中展示了超越人类水平的表现。例如,在模拟律师资格考试中,GPT-4的成绩位于前10%的考生之列(参见论文“GPT-4 Passes the Bar Exam”),如图1-7所示;GPT-4在美国多州律师考试MBE(Multistate Bar Exam)中的准确率为75.7%,超过人类学生的平均成绩,并大大超过ChatGPT及之前的GPT模型(GPT-2因全部回答错误而无成绩);在GRE Verbal考试中,GPT-4达到了接近满分的169分(满分170分);在美国大学预修课程(AP)心理学考试中,GPT-4获得了5分,这在AP考试中相当于最高分。这些表现在很多方面超越了过去的大语言模型。
图1-7 不同时期GPT模型在MBE上的表现
3.多语言能力
GPT-4在多种语言上的表现优于现有的大语言模型。在MMLU基准测试中,GPT-4 在除英语以外的多种语言上的表现都超过了现有模型,例如在拉脱维亚语、威尔士语和斯瓦希里语等低资源语言上的表现。这表明,GPT-4 的训练方法和模型结构在不同语言之间具有较好的通用性。
4.支持的上下文长度增加
原始的GPT-3模型在2020年将最大请求值设置为2049个。在GPT-3.5中,这个值增加到4096个(大约3页单行英文文本)。GPT-4有两种变体,其中GPT-4-8K的上下文长度为8192个,而GPT-4-32K则可以处理多达32768个标记,这相当于大约50页文本。虽然只是上下文长度的扩增,但由此可以带来大量新场景和用例。例如,可以凭借其处理50页文本的能力,来创建更长的文本,分析和总结更大的文档或报告,或者在不丢失上下文的情况下处理更多更深入的对话。正如Open AI总裁格雷格·布罗克曼(Greg Brockman)在接受TechCrunch采访时所说的:“以前,该模型无法了解你是谁、你对什么感兴趣等信息。有了这种背景,肯定更有能力……借助它,人们能够做更多事情。”
5.可联网并使用插件
官方给出的插件主要是网页浏览插件和代码执行插件,这两个重量级插件直接解决了之前GPT模型的训练数据为2021年9月前的数据这一瓶颈(无法给出超出数据集时间限制的回答),让GPT-4可以任意浏览互联网实时信息,进行分析和回答,同时让生成大型代码的能力更加精准可控。可接入第三方插件的功能则是彻底解除了GPT模型的限制,可以快速建立庞大丰富的应用生态圈。并且,GPT-4可以自主选择使用的工具项,无须人工指定,也可以自主创建插件供GPT-4自己使用,这也增加了大量应用场景的可能性。
6.多模态思维链
作为大语言模型涌现的核心能力之一,思维链(Chain of Thought)的形成机制可以解释为:模型通过学习大量的语言数据来构建一个关于语言结构和意义的内在表示,通过一系列中间自然语言推理步骤来完成最终输出。可以说,思维链是ChatGPT和GPT-4能让大众感觉语言模型像“人”的关键特性。虽然GPT-4这些模型并非具备真正的意识或思考能力,但用类似于人的推理方式的思维链来提示语言模型,极大地提高了GPT-4在推理任务上的表现,打破了微调(Fine- tune)的平坦曲线。具备了多模态思维链能力的GPT-4模型具有一定的逻辑分析能力,已经不是传统意义上的词汇概率逼近模型。通过多模态思维链技术,GPT-4将一个多步骤的问题(例如图表推理)分解为可以单独解决的中间步骤,进一步增强GPT-4的表达和推理能力。
GPT-4采用的新技术
1.可预测的扩展
GPT-4项目的重点之一是开发可预测扩展的深度学习栈。通过使用与GPT-4相似的方法训练较小规模的模型,可以预测GPT-4在各种规模上的优化方法表现,从而能够借助需要更少计算资源的较小模型去准确预测GPT-4的性能。
2.损失预测
GPT-4的最终损失可以通过对模型训练中使用的计算量进行幂律拟合来预测。根据赫尼根(Henighan)等人的研究,拟合出了一个包含不可约损失项的缩放定律:
(1)
这样就可以通过拟合较小规模模型的损失来准确预测GPT-4的最终损失。
3.预测人类评估性能
OpenAI开发了预测更具解释性的能力指标的方法,如在HumanEval数据集上的通过率。通过从使用1/1000倍乃至更少计算资源的较小模型中进行外推,团队成功地预测了GPT-4在HumanEval数据集子集上的通过率。这表明,我们可以在早期阶段预测GPT-4在具体任务上的性能,为未来大型模型的训练提供有价值的参考。
4.使用基于人类反馈的强化学习进行微调
GPT-4通过使用基于人类反馈强化学习(RLHF)进行微调,生成更符合用户意图的响应;同时,RLHF 微调也有助于降低模型在不安全输入上的脆弱性,减少不符合用户意图的响应。
5.基于规则的奖励模型
该模型使用GPT-4自身作为工具,利用基于规则的奖励模型(RBRM)为GPT-4在RLHF微调过程中提供更精确的奖励信号。RBRM通过检查模型生成的输出与人类编写的评估标准是否一致,对输出进行分类,从而为GPT-4提供正确行为的奖励信号。
6.模型辅助安全流程
通过领域专家的对抗测试、红队评估,以及使用模型辅助安全流程等方法,可以评估和改进GPT-4的安全性。这些方法有助于降低GPT-4产生虚假及有害内容的风险,并提高它在安全输入上的表现。
GPT-4的不足和局限
1.可靠性不足
尽管GPT-4在许多任务上表现出色,但它并不完全可靠。GPT-4在生成输出时可能产生“幻觉”现象,例如会错误地生成某些事实或进行错误的推理,因此在使用GPT-4生成的输出时,尤其是在高风险场景中,应谨慎。
2.有限的上下文窗口
GPT-4具有有限的上下文窗口,这意味着它在处理长篇文本时可能会遇到困难。尽管GPT-4在短文本任务上表现出色,但对于涉及长篇阅读理解的任务,GPT-4可能无法做出准确判断。
3.不从经验中学习
GPT-4不具备从经验中学习的能力,这意味着尽管GPT-4可以处理大量的输入数据,但它无法从过去的错误中学习以改进未来的输出。
4.容易受到对抗攻击
GPT-4在面对对抗性输入时可能会产生不良行为,如生成有害内容或错误信息。尽管已经采取了一系列措施来提高GPT-4的安全性,但在面对恶意用户时,GPT-4仍然可能会受到攻击。
5.偏见
GPT-4在输出中可能存在各种偏见。这些偏见可能来自训练数据,导致模型生成不公平或有害的输出。虽然已经采取了措施来纠正这些偏见,但完全消除它们仍然需要时间和努力。
6.过度自信
GPT-4在预测时可能表现出过度自信,即使在可能犯错误的情况下也不会仔细检查工作。这可能导致模型在某些任务上的表现不如预期。
尽管 GPT-4 具有这些不足和局限,但它在许多方面的性能仍然有显著的提高。为了充分利用GPT-4 的潜力并降低潜在风险,应该在使用模型时采取适当的措施,如对输出进行人工审查,在关键场景中避免使用模型或通过监控模型的使用来监测滥用行为。
正如本节开头所述,人们期待和关注的是GPT-5甚至未来的GPT-X到底会达到什么样的高度?所有人梦想中的AGI是否会真正实现?关于这些问题,等到 GPT-4发布后,全球对于OpenAI的关注度进一步提升。格雷格·布罗克曼在2023年的一次采访中说道:“OpenAI正在测试GPT-4高级版本,它将是普通GPT-4存储内容能力的5倍。”虽然OpenAI的官网中并没有任何关于下一代GPT产品的预告和介绍,但通过使用最新一代GPT-4-32K,可以对OpenAI未来的产品进行预测,也可以感受到人们对未来的期许。在主要技术方向和性能改进方面,GPT-5很有可能具备以下特点。
1.更加准确和流畅
GPT-5可能会在语言理解和生成方面更加准确和流畅,包括更好的上下文理解能力、更丰富的知识图谱和推理能力、更高级的对话和问答能力等。例如,它可能具备95%以上的自然语言处理任务准确率,以及更高的语义相似度评分。
2.更多模态
GPT-5可能会加强对多模态数据的理解和生成能力,包括图像、视频、音频等。这将有助于GPT更好地分析和处理多媒体数据,使其在虚拟助手、智能家居、虚拟现实等多个应用领域内的表现更为优秀。
3.提高可靠性
为了减少生成输出时的“幻觉”现象,可以研究一种在生成过程中引入事实验证和逻辑推理的机制。此外,可以通过引入人类专家的知识和反馈,训练模型更好地理解并生成可靠的输出。
4.扩展上下文长度
为了解决长篇文本处理的问题,可以通过某种新的架构使GPT-5能够处理更长的上下文长度。例如,可以通过在模型中引入记忆机制或者将注意力分层,使GPT-5更好地处理需要长篇阅读理解的任务。
5.从经验中学习
为了让 GPT-5 具备从经验中学习的能力,可以利用某种在线学习技术,使模型能够在运行过程中不断更新权重并优化自身表现,从而使GPT-5能够从过去的错误中学习,进一步地提高未来的输出质量。
6.提高抗对抗攻击能力
为了应对对抗性输入,可以通过新的健壮性训练方法使GPT-5在面对恶意输入时能够维持正常行为。此外,还可以开发某种输入过滤器来识别和过滤潜在的对抗性输入。
7.减少偏见
为了消除模型输出中的偏见,可以采用某种公平性训练方法,以确保模型在训练过程中不会吸收数据中的有害偏见。此外,还可以通过引入外部知识和人类反馈来纠正模型生成的不公平或有害输出。
8.控制过度自信
为了防止 GPT-5 在预测时过度自信,可以利用某种新的不确定性估计技术,使模型能够在预测时正确评估自身的不确定性。通过这种方法,GPT-5 将能够在面对可能出错的情况时,更加谨慎地生成输出。
9.可解释性和透明度
GPT-5也可能会更注重可解释性和透明度,使其生成的结果更加可靠,更易于被人类理解和接受。为了实现这一目标,GPT-5 可能会采用新型可解释神经网络架构和注意力机制来提高模型的可解释性。
通过这些改进,GPT-5应该能够更好地满足人们不断增长的语言和认知需求,提供更加智能化和个性化的服务和支持,为人类带来更多有益的帮助。
关于未来,OpenAI在GPT-4技术报告中是这样阐述的:“GPT-4和后续模型有可能以有益和有害的方式极大地影响社会。我们正在与外部研究人员合作,以改进我们理解和评估潜在影响的方式,并对未来系统中可能出现的危险能力进行评估。我们将很快分享更多关于GPT-4和其他AI系统对社会和经济的潜在影响的想法。”此外,各互联网巨头也纷纷表达对 GPT-5 的担忧,并且号召联名阻止进行GPT-5相关实验。2023年5月2日,“深度学习三巨头”之一暨2018年图灵奖得主杰弗里·欣顿(Geoffrey Hinton)发表推文证实他已经从谷歌离职,同时也表达了对AI失控的危机感(“推文强调了他离开是为了让公众了解AI的危险”)。
未来的多模态大模型技术将对每个人的生活和工作产生一系列深远的影响。
GPT将极大地影响资讯和社交媒体领域。在未来,GPT-X等技术生成的内容可能会在互联网上广泛传播,使人难以分辨在线观点究竟源于真实的公众声音,还是算法生成的“中心服务器的声音”。民众可能会盲从于GPT-X等技术生成的观点,导致人类沦为机器的复读机。同时,GPT-X等工具可能会大量渗透普通人的社交互动,使人际沟通方式逐渐模式化。
AI将大量替代低端重复性沟通和多模态工作。GPT-X等技术可能会与机器人技术相结合,从云端渗透终端设备,进入每个人的日常生活当中。操作系统和办公软件的交互界面可能会受到大模型的主宰。虽然一开始有很多人可能会因为 AI 技术的替代而失业,但更多人逐渐会借助GPT-X等技术提高工作效率,并成为自然语言程序员。人类开始将机器作为工具,而创造力和自然情感将成为人类能够坚守的宝贵特质。
各种考核将从知识型考核转向综合能力考核。知识储备和外语技能逐渐变得不再重要,工作经验和技术经验的价值将取决于是否拥有更先进的GPT模型或算力资源。一些曾经的热门专业可能会逐渐衰落,未来人类将从人类内部的竞争过渡到人机间的竞争,高层次能力的竞争也将更加激烈。
尽管谁也不知道GPT未来的发展路线,但正如OpenAI在GPT-4技术报告中所说的那样,不管是有益还是有害,GPT的后续模型有可能会“对社会产生重大影响”。