
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
1.3 垂直领域大模型迁移的机遇
众所周知,大模型的三大要素是算力、算法和数据。每个要素对于大模型在垂直领域的迁移都至关重要。大模型之所以被称为“大”,部分原因在于其庞大的参数量和所需处理的数据量,计算需求大体上是参数量和数据量的乘积。例如,与GPT-3相比,GPT-4的参数量增加至16倍,达到了1.6万亿。当引入图像、音频、视频等多模态数据时,所需处理的数据量会急剧增加,这就要求拥有非常强大的算力。某些垂直领域模型的训练对算力的需求相对较低,如数字人技术,它所需的训练成本可能比相同参数规模的通用模型低一个数量级,但对算力的需求仍然是许多领域企业难以承担的。
大模型的开源生态为垂直领域迁移带来了机遇。细分领域的企业可以在开源模型基础上,通过低算力的微调,再结合特定领域的高质量数据进行精细调整,以适应特定领域或场景的需求。这些针对特定任务的模型借助如LoRA(Low Rank Adaptation,低秩自适应)等低算力微调技术,能够在参数规模上与通用模型保持同等级别,同时在成本和效能上展现出更大的优势。
在算力、算法和数据三大要素中,算法的进步相对容易实现。部分原因是开源社区中存在众多可供参考的项目,从原理到代码实现的路径皆有可参考的例子,这为我国企业提供了快速缩小甚至消除与国际差距的可能。
同时,如前所述,高质量的数据对于训练大模型至关重要。在特定领域,尤其是垂直领域,拥有高质量和高精度的领域数据是成功构建垂直大模型的关键。在数据驱动和模型训练策略得到精细优化的情况下,垂直大模型在相关领域的表现可能会超过通用大模型,且成本更为可控。在这样的背景下,越来越多的企业加入了垂直大模型的赛道,医疗、金融和教育领域的应用就是一些典型的例子。