1.1 ChatGPT是什么
ChatGPT的全称是“Chat Generative Pre-training Transformer”。这个名字来自它的基础技术——GPT,即Generative Pre-training Transformer,这是一种大型的语言预测模型,能够生成类人表达的文本。而“Chat”则表示这个模型是对话场景下进行的。
对于这样一个具备“类人”沟通能力的聊天机器人,它的核心技术是基于大量文本数据训练而来的。不同于传统的搜索引擎模式,ChatGPT的回答是有逻辑的、可互动的,且上下文是有关联的。这样的颠覆性模型的问世,其实得益于2019年微软对一家从事人工智能研究的非营利性组织OpenAI的投资[2]。
OpenAI的设立,是希望保障通用人工智能(Artificial General Intelligence,AGI)能够在大多数具有经济价值的工作中超越人类。在安全和共同利益保障的双重基础上,微软也希望通过人工智能打破谷歌在搜索引擎领域的垄断地位。
2019年年初,作为战略投资者的微软,参与了OpenAI的资本化进程。至此,非营利性的研究组织转变成商业化的企业。同年7月,微软注资10亿美元,获得了OpenAI技术的商业化授权,而这也是微软旗下产品与GPT技术完成深度绑定的关键性步骤。
在此后的两年时间里,OpenAI研究出了GPT-3语言模型,发布了第一个产品OpenAI-API(API:应用程序编程接口),并再次获得了微软的投资,在商业化的道路上迎来了加速期。直至2022年年底,最新款人工智能产品被命名为“ChatGPT”。2个月后,ChatGPT的全球活跃用户突破了1亿人。
我们一起回顾一下ChatGPT相关产品/模型的发布历程。
ChatGPT相关产品/模型发布历程
产品迭代的加速是ChatGPT发展的显著特点,尤其是在ChatGPT发布之后,得益于海量真实数据的反馈,产品的迭代速度明显加快。在2023年以后,这种迭代的速度更快了,几乎每隔一两个月就会有重大的更新和创新。
这样的技术迭代速度,也意味着我们对于“ChatGPT是什么”的认知,不应该仅仅建立在特定版本功能的体验感受上。相反,我们更应该关注的是其底层的逻辑、动态的发展趋势以及巨大的潜力。
在本书中,所有的示例均采用最新的GPT-4模型来生成,以展示其最新的技术实力。同时,我们也会结合最新的插件功能,来全面介绍ChatGPT的扩展性能力,以及未来的发展潜力。这将帮助读者更深入地了解ChatGPT的核心价值和未来可能的发展方向。
可以通过两种方式登录ChatGPT:
1)官方网站
用户首次登录ChatGPT网站时需要注册,并通过如下的交互窗口选择不同模式。
● 普通账户:可使用GPT-3.5
● Plus账户:可使用GPT-3.5/GPT-4
2)手机端App
2023年5月,OpenAI发布了ChatGPT苹果手机端的应用,适用于iPhone 8、iOS 16.1或者更新的机型及系统。而就功能来说,它仅支持文字交互模式,不支持多模态的图片或者视频输出,也不能调用摄像头。
与网页版相似,移动端的ChatGPT依旧主打极简、清晰的风格和沉浸式的聊天界面。
但与网页版不同的是,此次使用了iOS系统的ChatGPT应用在对话中加入了语音输入的功能。语音是以录音的形式输入的,ChatGPT会先把语音转成文字,确认无误发送后,用户将得到回复。语音输入目前同样支持中文,即便是中英文夹杂的对话形式,其学习和辨识能力也很高。
可以说,ChatGPT的推广将跨越语言、语种障碍,成为最便携的“类人”智能机器人。
无论是下载App还是打开网页,完成注册后,人们对于ChatGPT一个主流的错误认知是简单地把ChatGPT当成聊天机器人,而忽视了其聊天界面背后的是一套超级智能SaaS(软件即服务)[3]。
回归图灵的初心,我们意识到这是一次颠覆性的技术革命。曾令我们人类沾沾自喜的创造力和艺术性将面临巨大的“被替代”危机,但这也是我们可以用最简捷的工具完成自我提升的最好机会。
ChatGPT能做什么?
ChatGPT如何改变我们的工作方式?
ChatGPT技术迭代后能带来什么新机遇?
我对于这些问题的思考是本书的基石。因为,在未来能替代我们的,可能不是AI,而是会用AI的人。