第一章
纠正误解:利用ChatGPT赋能科研
毫不夸张地说,ChatGPT正在震撼世界。其强大的上下文理解能力和类似人类的对话能力,甚至能让最富经验的人工智能专家感到震惊。大量的知识和专业技能变得触手可及,这在人类历史上尚属首次。只需与ChatGPT进行一些简单的交流,就能跨越无知到理解的鸿沟,不再需要不断地点击网页,到处寻找答案,而只需轻轻地敲几下键盘,信息就能呈现在眼前。此外,ChatGPT让我们能够与历史人物、科学家和哲学家进行持续对话,给我们提供无限的灵感,就算是普通人也会突然感到富有能力。支离破碎的文字可以像魔法一样转换为连贯的结构合理的诗句、歌词、法律合同和故事,但这同时也产生了一些重要的问题:我们是否可以拓展ChatGPT的边界,以增强人类智力和创造力呢?我们能否将ChatGPT的强大能力用于科研?我们应该这样做吗?
然而,这些问题并不容易回答。就使用ChatGPT促进科研这一想法而言,人们有很多担忧。其中一些担忧可能是因为人们对新发明存在误解或是本身就对其持怀疑态度。这种现象在人类历史上常常伴随着重大科技突破出现。此外,人们还有一些更深的担忧值得进一步讨论。在接下来的部分,我们将深入探讨一些最常见的反对观点,并阐述我个人对每个问题的看法。
第一个反对观点认为,ChatGPT既没有能力也没有理由代替人类研究者开展科学研究。这一观点认为,科研的核心在于创新,探索未知事物,以拓展知识的边界。正因为如此,研究过程可能是高度非线性的、交互式的和不确定性的。这就注定科研不能像例行公务那样机械化和自动化。虽然这些观点是有道理的,但并不能否定使用ChatGPT促进科研的可能性。我们可以将ChatGPT看作科研助手,而不是科研工作主导者。换句话说,我们或许不愿让ChatGPT或人工智能技术掌控方向盘,但在我们驾驶的时候,它们肯定可以为我们导航,提醒路况。
反对用ChatGPT进行科研的第二个理由是,ChatGPT有产生“幻觉”的倾向。ChatGPT存在这一问题是众所周知的。批评者经常引用ChatGPT会生成实际并不存在但却看似切题的引用和参考资料的例子,或者捏造历史或科学事实来支持某种观点的例子。的确是这样,因为ChatGPT等GPT模型是因果模型,其接受训练的目的就是预测文本序列中的下一个单词(或词元)。这种训练能确保聊天机器人生成看似连贯的句子和段落,但这些句子和段落中可能存在与事实不符的信息。不过,通过人类或者受人类监督的机器来核实生成的内容,通常可以避免这种错误。或者,可以使用高质量且无错误的数据来训练该模型,进而更彻底地解决这个问题。只要研究人员对ChatGPT的回答保持警惕,根据各自领域的专业知识尽责核实内容,人工智能产生的“幻觉”就不太可能导致严重错误或者破坏研究成果的有效性。
ChatGPT也因缺乏推理能力而受到批评。它在加法和乘法等基本数学运算中可能会犯简单的错误。尽管人们已经提出了各种方法(如链式思考提示词)来引导ChatGPT避免推理错误,但成效有限。因果语言模型的训练不区分事实和推论,所以ChatGPT缺乏推理能力这一问题,可能更为深刻,且不易解决。杨立昆(Yann LeCun)在其2022年发表的论文中认为大型语言模型不是基于现实,缺乏现实世界的经验,并主张开发世界模型来解决这个问题。另外,约书亚·本希奥(Yoshua Bengio)则在2023年表示会专注于构建专门用于完成推理任务的推理模型。总之,单纯通过增加语言模型的规模,像ChatGPT这样的大型语言模型很难克服其推理能力的局限性。相反,可能需要开发替代模型架构或者设计替代训练策略来应对这一挑战。
最后,人们认为ChatGPT增加了抄袭的风险,从而对学术诚信构成潜在威胁。例如,该模型能够生成高质量的文本,这可能被滥用来完成写作任务。带来的后果就是,学生可能无法培养他们的写作能力和批判性思维能力。并且他们的文章质量也可能无法准确反映他们的学术能力。违背学术作品的原创性和真实性可能会严重破坏学术诚信,助长不公平现象。为此,各级学校已经出台政策,限制学生完成课程作业时使用ChatGPT和其他基于人工智能的工具。同时,也摸索出了能够可靠检测是否存在人工智能工具滥用的实用方法。就开发检测机器生成内容的抄袭检测工具来说,最近的研究取得了不同程度的成功。比如,爱德华·田(Edward Tian)2023年年初创建了GPTZero,其可以针对计算文本的困惑度分数,并将该分数与ChatGPT对比,进而确定这段文本是否是由ChatGPT生成的。困惑度衡量的是概率模型预测样本的能力,通常用于评估语言模型的文本生成性能。最近,OpenAI推出了人工智能文本分类器(AI Text Classifier),这是一个经过微调的GPT模型,可以用于预测文本由各种语言模型(包括ChatGPT)生成的可能性。
现在人们正在讨论人工智能模型的商用和个人使用的法律和监管等相关问题。不过,因为人工智能的能力和局限性都很难预测,这些讨论可能会滞后。有关通用人工智能是否会出现,人工智能是否会产生意识、感知、情感和目标设定能力等问题也已经出现:我们是否应该赋予人工智能权力?如果是的话,应该赋予哪些权力?技术人员、哲学家和伦理研究人员正在寻找答案来解决这些问题。从实际角度来看,在可预见的未来(如未来5至10年),人类和机器的合作程度将不断加深,一起解决问题。机器不能完全自主运行,需要人类的监督和指导。另外,人类也正在将更加复杂、认知要求更高的任务交给机器完成,并得到反馈和启发。这样的人机合作伙伴关系可能很快就会成为科研常态,这也将增加确定知识产权的难度。比如,确定一个想法是来自人类还是机器会变得困难。
人类与非人工智能机器的交互,以及人类与受人工智能驱动的机器的交互,这两种交互之间是否存在本质区别,这个区别能够证明当今人们不断增长的忧虑和恐惧是合理的吗?几十年前,人们开始使用电子计算器进行数学计算。可以说,人类完全主导了这些交互,因为计算器只是执行了运算指令。如今,大多数研究人员依赖软件包和应用程序接口进行数据分析、建模和模拟。在与机器交互时,人类是否仍然能保持其主导地位?答案可能不再明确。可以想象的是,机器给我们提供有趣、意料之外的数据模式或模拟结果,我们常常由此获得灵感并决定探索其他方法或偏离我们最初的研究计划。科研工作者与ChatGPT互动时,他们之间交流知识和相互启发达到了新的高度。我们要么是有意识地,要么是半有意识地,同意将一部分决策权移交给机器,进而换取最优解决方案或者灵感。这种权力的移交以前只见于人与人之间的交互中,但现在,也可能是历史上第一次,我们目睹了其在人与机器之间发生。
像ChatGPT这样的大语言模型所具备的几个关键特征,使得这些模型非常适合充当科研助手或科研伙伴。通过互联网上的海量数字化文本的训练,这些模型在知识广度上就远超任何人。尽管ChatGPT在特定领域的专业知识可能比不上科研人员,但它的多学科知识可以提供有价值的见解。
很大部分科研工作,甚至包括一些尖端研究,都涉及乏味、劳动密集型和重复性的任务,这些任务仍然需要一定程度的人类判断和决策。这样的任务包括文献综述、数据采集和稿件起草,ChatGPT已经证明其能够更快地完成这些任务,进而让科研人员能够专注于科研中更加激动人心和具有挑战性的方面。团队合作能带来诸多好处,但现实情况却是,许多科研人员,特别是那些规模较小、经费较少的机构的科研人员,他们的资源有限,可能没机会接触到大型的合作研究团队。科研资源集中于知名机构中,这反映了全球财富分配不均。ChatGPT可以调节资源分配,进而“扳平比分”,让资源有限的科研人员、研究生和博士后能够组成他们的“个人团队”,发挥他们的创造力。这样一个激动人心的转变,我们希望能在未来几个月或几年内实现。这也是我撰写本书的主要原因,本书旨在促进并加速“扳平比分”的进程,让每个人都得以获得先进的研究能力。
过去几个月,有不少关于ChatGPT的书籍出版面世。又来一本新书,除了在书架上积灰,还能有什么作用呢?这个问题是有道理的,值得我诚恳作答。
市场上与ChatGPT相关的书籍大多都侧重于提示词工程的教学,且通常采用的是模板,并非专门用于科学研究。我同我的研究生、访问学者已经读了很多这样的书、在线教程和应用程序接口文档,还在YouTube上看了有关提示词工程的视频。这样的书读得越多,就越让我们意识到,提示词模板和所谓的“最佳操作”或经验法则能带来的价值有限。
颇具讽刺意味的是,在互联网上搜索一下,可以发现数不清的预制、可直接使用的ChatGPT提示词模板,这些模板涵盖了从食谱到计算机组装等各个主题。不过,真的有适用于各个主题的最优提示词吗?即使有,又如何找到一个切合我们需求的提示词?想象你在与另一个智能生物(比如人类)对话:你是愿意筛选数千张提示词卡片来找到最合适的问题,还是愿意简单地开始对话并且顺其自然?经验丰富的采访者通常会准备几个深思熟虑的开场问题,而且能在不控制对话的情况下巧妙地引导对话。让对话伙伴自由表达想法,我们就更有可能获得有价值的见解和灵感。要想学习知识和开阔眼界,就应该敢于探索未知领域,同时并不担心失去控制。当然,我们不应盲目接受机器提供的信息,反而始终都要发挥批判性思维,并进行认真核实。
为了充分发挥像ChatGPT这样的大语言模型的能力,我们同其对话时,应将其视为学识广、智商高的同伴。内容至上,形式次之。过去几个月,数千个基于ChatGPT和类似模型而开发的应用程序横空出世,这些应用程序提供了多种多样的界面和方法供用户与机器交互,满足用户的需求。但是,我们很快就明显察觉,不论我们多么努力,都不可能跟上这些不断增长的应用程序的节奏。不过,如果我们从更加广泛的视角观察低代码或者无代码应用程序的整体趋势,会发现,从根本上来说,这些应用与基础语言模型的交互方式出奇相似——都是通过撰写提示词。因此,掌握用自然语言与模型交流是必不可少且经久不衰的技能,该技能的适用时间可能会比大多数流行应用程序的生命周期还要长。掌握了该技能,我们就能最大限度地发挥ChatGPT和未来的大语言模型所具有的全部潜力。
我们与ChatGPT的合作经验让我们得出了两个简单但极其有效的原则:“保持提示词充分清晰”和“不给答案设限”。提示词模糊不清,含义模棱两可,这会阻碍我们与ChatGPT的准确交流并导致误解。为了让机器尽可能满足我们的需求,我们必须通过提供语境,清晰表达我们的期望,并且避免含糊不清,进而让机器充分明白我们的要求。ChatGPT给出不尽人意的回答,往往不是因为其能力不足,更多的是因为我们的提示词不能清楚表达需求。要知道,ChatGPT是经过训练的,而且有一个包含数十亿参数的庞大、多层神经网络,其中的知识不可胜数。面对这种高度压缩、紧凑的知识表达形式,要想准确找到并提取满足用户需求的具体信息片段变得极具挑战性。为了解锁这些信息片段,我们的提示词必须经过精雕细琢,才能成为开启知识宝库的完美之钥。
不给答案设限,让ChatGPT能够发挥其批判性思维能力,与“保持指示词充分清晰”原则相辅相成。为了从对话中获得最大利益,我们应该避免认为自己知道自己所提要求的最佳流程和答案,进而主导对话,因为这样ChatGPT就只是个打字机了。过多限制会削弱ChatGPT的作用,抑制其创造力,也让我们没有机会获得灵感。相反,我们应该为ChatGPT创造空间,以便它能够为对话做出有意义和智慧的贡献,这也正是实现人机合作的真正价值和全部潜力的方式。关键在于引导而不是主导交互。
本书旨在为在科学研究背景下使用ChatGPT提供全新视角,也认为真实互动比刻板模板更加重要。本书探讨了两个矛盾但互补的原则——“保持提示词充分清晰”和“不给答案设限”——背后的艺术和科学,以期从对话中获得最大价值。
在本书的第一章中,我们探讨了ChatGPT对获取信息的变革性影响以及其增强人类智能和创造力的潜力。我们虽然承认人们对ChatGPT用于科学研究存在担忧,例如其产生“幻觉”的倾向、缺乏推理能力以及对学术诚信的潜在威胁,但我们认为通过谨慎使用和监督,可以减少这些问题的产生。我们建议,不要将ChatGPT视为科研人员的替代品,而是将其视为具有无限价值的研究助手,这个助手可以加快完成烦琐、劳动密集型的任务,从而让研究人员能够专注于科研中更令人兴奋和更具挑战性的工作。本章还强调,需要采取全新视角看待与ChatGPT的交互,这样的视角鼓励真实对话,反对刻板模板,这种视角遵循“保持提示词充分清晰”和“不给答案设限”原则。
在第二章中,我们将通过提示词工程,介绍10个基本规则,用于与ChatGPT进行有效交流。我们不仅要灵活应用这些规则,还要发挥自己的创造力。这些规则通常需要组合使用,这就能让我们在日常科研活动中,专心投入这种人机合作中。你也将发现,使用这十个基本规则,也为实施上文提到的两个指导原则——“保持指令充分清晰”和“不给答案设限”——奠定了基础。让我们马上开始吧!