深度学习有潜力“驯服”数据爆炸
人工智能正渗入我们生活的方方面面。从打字时的自动单词补全功能,到自动搜索建议功能和基于播放历史的歌单推荐功能,再到人工智能Alexa问答互动和智能关灯功能,人工智能已活跃在我们的日常生活中。人工智能的起源可以追溯到80多年前,它得名于20世纪50年代,但直到最近,它的潜力才得到医学界的关注。人工智能在医疗领域中的应用包括:提供个人医疗数据的复杂全景图、优化医疗决策、减少误诊和过度医疗操作等失误、帮助梳理和解读相应的检查、推荐治疗方案等,而这些应用都是由数据驱动的。我们正处于大数据时代:全世界每年都会生成泽字节(ZB)(1)的数据。在医疗领域,大数据集表现为:全基因组序列、高分辨率图像、可穿戴设备的连续数据输出等形式。虽然数据不断涌现,但我们至今所处理的只是其中很小的一部分,估计连5%都不到。从某种意义上来说,在此之前,这些收集来的数据一直都整装待发,却无用武之地。而人工智能的进步正在融合、发挥大数据的作用,并逐渐“驯服”这种肆无忌惮的数据增长态势。
人工智能有许多分支。传统机器学习包括逻辑回归、贝叶斯网络、随机森林(2)、支持向量机(3)、专家系统,以及许多其他数据分析工具。其中,贝叶斯网络是一种提供概率的模型。假设有一位患者,基于其症状,通过这一模型就可以生成诊断列表以及每种诊断的可能性。有趣的是,在20世纪90年代,我们用收集来的数据做了分类回归树,让数据进入“自动分析”模式,从而消除了人类对数据解读产生的偏差,当时我们还没有使用“机器学习”这一术语。而如今,这一模式的数据分析能力已经有了显著提高,并得到了认可。近年来,人工智能工具已经扩展到深度学习和强化学习等深层网络模型。
2012年,一篇关于图像识别的经典论文发表之后,人工智能的分支之一——深度学习,开始展现其非凡的发展势头。2
新的人工智能深度学习的算法数量和出版物数量激增(见图1-1),基于大型数据集模式的机器识别呈指数级增长。人工智能训练中每天运算的千万亿次浮点运算(每秒1015浮点运算速度)增长了30万倍,这进一步反映了自2012年以来人工智能的变化(见图1-2)。
图1-1 基于深度学习的人工智能算法数量和出版物数量增长情况
资料来源:左图改编自A. Mislove,“To Understand Digital Advertising, Study Its Algorithms,”Economist (2018);右图改编自C. Mims,“Should Artificial Intelligence Copy the Human Brain?”Wall Street Journal (2018)。
图1-2 人工智能训练的最快运算速度增长情况
资料来源:D.Hernandez and D.Amodei,“AI and Compute,”OpenAI (2018)。