MindSpore大语言模型实战
上QQ阅读APP看书,第一时间看更新

1.2 从深度学习到大语言模型

值得一提的是,深度学习并未解决人工智能的本质问题。未来,业界很可能还要经历数次低潮与革新,方能实现真正的AGI。在此之前,虽然存在着关于强/弱人工智能的讨论和对科技奇异点的担忧,但业界的重心依然是人工智能算法的研发。

从早期阶段开始,人工智能就分为不同的流派。人工智能的先驱们不断探索和论证通向真正智能的崎岖道路。有趣的是,有影响力的三大流派(类脑计算流派、逻辑演绎流派、归纳统计流派)从人工智能创立之初便存在,时至今日人工智能也未由其中一派彻底统一。三大流派各有优劣势。类脑计算流派的目标最为宏远,但在未得到生命科学的支撑之前,难以取得实际应用。逻辑演绎流派的思考方式与人类相似,具有较强的可解释性。由于对数据和算力的依赖较少,逻辑演绎流派成为人工智能发展阶段中前两次繁荣期的主角。随着学术界对人工智能困难程度的理解逐渐加深,逻辑演绎流派的局限性被不断放大,并最终在第三次繁荣期中,逐渐让位于归纳统计流派的“暴力美学”。这种“抛弃人类先验,拥抱数据统计”的思想,在深度学习出现后被推向高峰。

值得强调的是,深度学习是时代的产物。如果没有大数据和大算力的支持,深度学习就不可能在3~5年占领人工智能的大部分领域。而随着人工智能模型的参数越来越多,训练所需的数据集规模也越来越大。为了适应巨大的参数量和数据集规模,研究者们提出了层次化建模和分散表示的思想,提升了复杂数据匹配的效率和精度,从而大大促进深度学习的发展。从技术的角度看,深度学习的核心是深度神经网络:通用的骨干网络配合具有特定目的的头部网络,使深度学习统一解决各个子领域内的不同问题。例如,在计算机视觉领域,彼此十分相似的深度神经网络已经成为图像分类、物体检测、实例分割、姿态估计等具体问题的通用框架;而在自然语言处理领域,一种被称为Transformer的模型也被大量使用,研究者们得以建立通用的语言模型。

然而,从本质上看,深度学习依然没有跳出统计学习的基本框架:特征抽取和模板匹配。相比于人类基于知识的推断,统计学习的方式无疑是低效的。在人工智能进入千行百业的大背景下,这种设计理念必将导致人工智能算法的通用性受限,因为对于任何新的概念乃至新的实体,算法都需要专门的训练数据来提供相关的信息,而在没有基础模型支撑的情况下,开发者们必须从头开始完成收集数据、训练模型、调试模型、优化部署等一系列操作。对于大部分人工智能开发者而言,这无疑是重大的挑战;同时,这也使得人工智能算法的开发成本居高不下,难以真正惠及细分行业和其中的企业,尤其是中小型企业。

预训练大语言模型是解决上述问题的有效手段。预训练大语言模型是深度学习时代的集大成者,其工作流程分为上游(模型预训练)和下游(模型微调)两个阶段。上游阶段主要负责收集大量数据,并且训练超大规模的神经网络,以高效地存储和理解这些数据;下游阶段则负责在不同场景中,利用相对较小的数据量和计算量,对模型进行微调,以达成特定的目的。

一方面,根据实践经验,在预训练大语言模型加持下的人工智能算法(包括计算机视觉、自然语言处理等领域的AI算法),相比于普通开发者从头搭建的算法,精度明显上升、数据量和计算成本明显下降,且开发难度大大降低。以计算机视觉领域的人工智能算法为例:在100张图像上训练基础物体检测算法,原本需要8块GPU运行5 h、1名开发者工作1周才能完成,而在预训练模型的加持下,只需要1块GPU运行2 h,而且几乎不需要人力干预。综合算力、人力开销研判,上述案例的开发成本节约至原先的10%甚至1%。

另一方面,对大语言模型的研究将有可能启发下一个通用计算模型。回顾历史,2011年前后正是传统统计学习方法的鼎盛时期,在计算机视觉领域甚至出现了参数量超过10亿的词袋分类模型——即使在2021年,参数量超过10亿的计算机视觉模型也足以被称为大语言模型。然而,在2012年左右,深度神经网络仅用6000万个参数就彻底击败了词袋分类模型,引领计算机视觉发展至今。深度神经网络相较于词袋分类模型,本质上是在特征匹配效率上产生了突破;研究者们猜测,在大语言模型发展到一定程度时,会产生另一个维度的突破,从而使统计学习方法“进化”至下一阶段。目前看来,这个突破有可能产生于大语言模型与知识的结合。

综上所述,预训练大语言模型是现阶段人工智能的集大成者,代表了统计学习流派的较高成就。在新一代技术未出现前,它将是研究和开发人工智能的最强武器之一。