人工智能与大数据技术导论
上QQ阅读APP看书,第一时间看更新

1.2 AI技术的成熟度

顾名思义,AI就是能够让机器做一些之前只有“人”才做得好的事情。主要集中在这几个领域:视觉识别(看)、自然语言理解(听)、机器人(动)、机器学习(自我学习能力)等。在技术层面,AI分为感知、认知、执行三个层次。感知技术包括机器视觉、语音识别等各类应用人工智能技术获取外部信息的技术,认知技术包括机器学习技术,执行技术包括人工智能与机器人结合的硬件技术以及智能芯片的计算技术。这些领域目前还比较散,它们正在交叉发展,走向统一的过程中。

很自然地,我们会在同一个任务上将AI系统和人类的表现进行比较。在某些任务中,计算机比人类要优秀得多,例如,70年代的小计算器就可以比人类更好地完成算术运算。但是,AI系统在处理诸如回答问题、医学诊断等更通用的任务时更加困难。AI系统的任务往往是在非常窄的背景下进行的,这样能在特定的问题或应用上取得进展。虽然机器在特定的任务上表现出卓越的性能,但是有时任务稍微有所改动,系统性能就会大大降低。

1.2.1 视觉识别

以图像识别和人脸识别为代表的感知技术已经走向了应用市场,特别是在交通、医疗、工业、农业、金融、商业等领域,带动了一批新业态、新模式、新产品的突破式发展,带来了深刻的产业变革。2017年9月,苹果公司发布的最新产品iPhone X包含Face ID、无线充电、自创芯片A11 Bionic等最新的AI技术。苹果的Face ID技术有人脸验证功能。iPhone X顶部的“刘海”部分集成了实现Face ID功能的器件,包括红外镜头、泛光感应元件、点阵投影器和普通摄像头。从原理上讲,当红外摄像头发现一张面孔时,点阵投影器会闪射出3万个光点,接着红外摄像头会捕捉这些光点的反馈,从而采集一张人脸的3D数据模型,并与A11 Bionic芯片中存储的模型进行比对。如果互相匹配,就可以解锁了,iPhone X随即被唤醒。为了更加精确地进行面部识别,苹果开发了一个神经引擎,用神经网络处理图像和点阵模式,并邀请好莱坞特效面具公司制作面具来训练神经网络,以保证安全性。The Verge(美国科技媒体网站)曾借用了一台具有夜视功能的摄像机,成功拍摄到这些肉眼不可见的红外光点,可以看到这3万个光点非常密集,不只是投射至人脸,连衣服上也有,视觉效果极其震撼。

如图1-5所示,在大规模视觉识别挑战赛(LSVRC)比赛中,图像标签的错误率从2010年的28.5%下降到了2.5%,AI系统对物体识别的性能已经超越了人类。在国内,视觉与图像领域的融资排在第一,总额为143亿元,在整个AI投资中占比23%(数据来源:腾讯的《中美两国人工智能产业发展报告》),说明国内投资者非常看好这一领域。

图1-5 物体识别能力比较(直线为人类,曲线为AI)

1.2.2 自然语言理解

自然语言理解是指接受语音输入,通过语音识别将用户声音转化为文字,再运用自然语义分析理解用户行为,给用户以精准的搜索结果,其核心技术在于用自然语义分析来理解人们像日常说话一样的提问。在词语解析方面,AI系统在确定句子语法结构上的能力已经接近人类能力的94%。在从文档中找到既定问题的答案的能力已经越来越接近人类(见图1-6左图)。AI系统识别语音录音的表现早在2016年就已经达到了人类水平(见图1-6右图)。

图1-6 问答准确性比较(左图)和语音识别能力比较(右图;直线为人类,曲线为AI)

从PC互联网到移动互联网再到AI时代,每个时代都伴随着一次交互式的变革。利用语音识别、自然语言处理等技术研发的对话机器人,正在改变着传统的人机交互方式。它们或内嵌到应用程序中,或与硬件相结合,致力于成为用户的个性化处理。目前,这些“助理”已经具备了基本的问答、对话以及上下文理解功能。它们正在打造全新的人机交互方式,为用户提供多场景的便捷服务。例如,智能音箱在2017年的美国消费中成为热门产品。虽然语音交互的老大依然是苹果公司的Siri,但是Amazon Alexa正在快速崛起(见图1-7左边的产品),它不仅可以对话应答,而且可以和多种智能家居设备进行交互。伴随着Amazon Echo智能音箱的诞生,Alexa的用户数量在一年内增长了325%。谷歌(产品名称为Google Home,见图1-7中间的产品)、微软、苹果、Facebook都在争夺这块智能音箱市场。微软也推出了内嵌Cortana(小娜)的Invoke音箱,并且将Conversation as Platform(对话即平台)作为战略。苹果于2018年2月9日正式上市开卖HomePad智能音箱,有白色和太空灰两个版本(见图1-7右边的产品)。

图1-7 智能音箱产品

语音交互可以说是人与机器“交流”的重要环节,这对于未来的人工智能而言是非常关键的入口。在国内,自然语音处理领域的融资排在第二,总额为122亿元,在整个AI投资中占比19%。国内企业中,京东在两年前与科大讯飞公司合作布局了智能音箱,致力于成为家庭控制中心。阿里推出了名叫“天猫精灵X1”的智能音箱,小米推出了小米AI音箱。阿里的智能音箱“天猫精灵”在2017年“双11”期间更是进行了巨额补贴,以低于成本价销售,仅“双11”当天销量便达到100万台。激烈的音箱之争背后其实是下一代服务入口之争。

搭载百度DuerOS的智能硬件产品也在陆续面世。DuerOS是百度基于AI技术打造的对话式人工智能系统。搭载DuerOS的设备可让用户以自然语言对话的交互方式(比如“小度小度,我想听陈百强的歌”)实现影音娱乐、信息查询、生活服务、出行路况等多项功能。目前,腾讯的所有语音端都采用自己研发的AI技术,而阿里的淘宝、支付宝电话客服、天猫精灵、优酷、虾米音乐等都应用了自己的语音技术。搜狗也已组建了自己的语音团队,推出了语音实时翻译技术。除了使用自家语音技术外,BAT也在加速对外开放平台,滚动扩张。阿里云、腾讯云小微、百度DuerOS平台都开放了语音识别、视觉识别等AI技术。百度还宣布语音技术全系列接口永久免费开放。

在谷歌I/O 2018大会上,语音助手Google Assistant更像人。作为谷歌AI用户感观最直接的语音助手,谷歌试图将其打造得更近似人:其一是声音拟人化,其二是对话日常化。I/O大会现场展示了指令Google Assistant预定餐厅座位,然后发出指令的人即可忙自己的事,而AI将自行打电话给餐厅,通过多轮对话与餐厅工作人员敲定好时间。在这个展示上,突显的亮点是,对话能力加强,近似日常交流习惯,极大地提高了与机器对话的用户体验。

语音是下一代人机交互的入口,未来语音技术会向各场景渗透。它们不但可以响应用户命令并执行任务,如回答问题、设置闹钟、检查航班行程等,而且与搜索、手机、智能家居等紧密结合。除了产品市场本身之外,争夺未来以语音交互为核心的智能家居生态的入口,是科技巨头纷纷推出智能音箱的重要原因。智能语音这块蛋糕有多大,目前还未可知。有一点越来越清晰,未来肯定是通过人工智能核心技术+应用数据+领域支持构建垂直入口或行业刚需。到目前为止,BAT加速布局2B(企业级)和2G(政府)市场,在教育、医疗、司法、汽车、客服等领域都已有涉猎。

1.2.3 机器人

大部分智能机器人目前还处于产业发展初期,但随着全球人工智能步入第三次高潮期,智能化成为当前机器人重要的发展方向,人工智能与机器人融合创新,进一步提升机器人的智能化程度。智能机器有自主的感知、认知、决策、学习、执行和社会协作能力。

2017年10月,网红机器人Sophia上了各大新闻媒体的头条。她已经正式获得了沙特的公民身份,成为第一个有公民身份的机器人。Sophia由汉森机器人技术公司(Hanson Robotics)于2015年推出,她具有强大的语音识别、视觉数据处理和面部识别功能。Sophia在与人对话的时候能够非常快地识别人脸,并且在对话过程中与人进行眼神交流。与此同时,Sophia还可以模仿人类的手势和面部表情,并能够与人类进行自然的语言交流。她采用了来自Alphabet公司(谷歌的母公司)的语音识别技术,利用AI程序分析会话并提取数据,语言功能会随着时间的推移变得更加智能化。这款机器人适合放置在养老院陪伴老人聊天,也很适合教小朋友。

最近,美国波士顿动力公司(Boston Dynamics)的研究重点是像狗一样的细长机器人,它可以爬楼梯,在与人类的拔河中保持住姿势,并可以开门,让其他机器人通过。这些视频不禁让人联想到快速、强大,有时甚至令人生畏的未来机器人。2018年5月24日,在波士顿举行的机器人技术峰会上,波士顿动力公司的小型机器人SpotMini正穿过会议室,如图1-8所示。

图1-8 波士顿动力公司的小型机器人SpotMini正穿过会议室

从全球范围来看,日本ASMO Actroid-F仿人机器人、Pepper智能机器人、美国BigDog仿生机器人等一大批智能机器人快速涌现,巨头企业也纷纷通过收购机器人企业,将智能机器人作为人工智能重要的载体,推动人工智能发展,例如谷歌相继收购Schaft、Redwood Robotics等9家机器人公司,积极在类人型机器人制造、机器人协同等方面布局。从国内市场来看,国内包括商用机器人在内的服务机器人市场规模在2017年突破200亿元。随着智能机器人市场的规模越来越大,且智能机器人切入点种类繁多,创业公司和巨头纷纷从不同的领域、方向和切入点加入智能机器人领域的市场争夺。

值得指出的是,机器人进展有时不尽人意。以前日本人常常炫耀他们的机器人能跳舞,结果一个福岛核辐射事故一下子把所有问题都暴露了,发现他们的机器人一点招都没有。美国也派了机器人过去,同样出了很多问题。比如一个简单的技术问题,机器人进到灾难现场,背后拖一根长长的电缆,要供电和传数据,结果电缆就被缠住了,动弹不得。所以,智能服务机器人仍处于产业化起步阶段。

1.2.4 自动驾驶

AI的智能程度决定了无人驾驶的可靠性,苹果、谷歌、特斯拉、百度等公司持续研发无人驾驶技术。虽然出行环境变化多样,当前的技术水平还无法直接应用于日常上路。但在出行过程中,人工智能技术已经开始发挥作用,包含行车记录仪、测距仪、雷达、传感器、GPS等设备的ADAS系统,已经可以帮助汽车实时感知周围情况并发出警报,实现高级辅助驾驶,保证用户出行安全。自动驾驶的技术核心包括高精度地图、定位、感知、智能决策与控制四大模块。自动驾驶汽车依托交通场景物体识别技术和环境感知技术,实现高精度车辆探测识别、跟踪、距离和速度估计、路面分割、车道线检测,为自动驾驶的智能决策提供依据。

在2017年的AI开发者大会中,百度无人驾驶汽车实现在北京五环行驶,在之后的百度世界大会上,百度CEO李彦宏表示,百度公司和金龙汽车合作生产的一款无人驾驶的小巴车,将在2018年7月份实现量产。伴随着AI及车载设备、无人驾驶的发展,车联网逐渐成形,在AI保障行驶安全的同时,将在车载环境中衍生出更多需求及服务。百度将通过无人驾驶汽车打通现有的产品,包括百度地图、百度音乐、百度支付等,打造生态闭环。

汽车行业正经历大规模的颠覆,汽车厂商越来越意识到,半自动和全自动驾驶车辆将需要基于AI的计算机视觉解决方案,以确保安全驾驶。特斯拉推出了多款电动车,包括Model S、Model 3(前面两个为小轿车)、Model X(SUV)、Semi电动卡车等车型。这些车型配备了半自动化驾驶技术,包括自动制动、车道保持以及车道偏离警告等功能。在国内,自动驾驶/辅助驾驶融资107亿元,在整个国内AI投资中占比18%。中国的自动驾驶/辅助驾驶企业虽然只有31家,但融资额却排在第三。2017年11月的百度世界大会上,百度汽车智能开放平台Apollo正式开放两款产品:Apollo小度车载智能系统和Apollo Pilot。在2018年的CES上,百度发布了Apollo 2.0版本。

与人类水平相当的无人驾驶可能需要更长时间的测试才能成熟起来,但是,我们预估,在未来几年中,越来越多的汽车厂商和IT公司会进入自动驾驶领域。目前,自动驾驶研究领域基本分为两大阵营:


(1)传统汽车厂商和Mobileye公司合作的“递进式”应用型阵营——“在任何区域里发挥局部功能”,强调“万无一失”的复杂传感器组合(redundancy in system)识别周围环境。通过低精度导航地图在任何区域实现无人驾驶。

(2)以谷歌、百度以及初创科技公司为主的“越级式”研究型阵营——“在特定区域里发挥全效功能”,强调通过采集某一区域的高精度3D地图信息配合激光雷达在某一区域实现无人驾驶。


但是殊途同归,两大阵营的终极愿景都是:“在任何区域里发挥全效功能”。

1.2.5 机器学习

人的大脑一直是一个未解之谜。人类如何思考,人类的大脑如何工作,智能的本质是什么,是古今中外的哲学家和科学家一直在努力探索和研究的问题。早期的研究者将逻辑视为人类智慧最重要的特征。让计算机中的人工智能程序遵循逻辑学的基本规律进行运算、归纳或推理,是许多早期人工智能研究者的最大追求。但人们很快发现,人类思考实际上仅涉及少量逻辑,大多是直觉的和下意识的“经验”。基于知识库和逻辑学规则构建的人工智能系统(例如专家系统)只能解决特定的狭小领域问题,很难被扩展到宽广的领域和日常生活中。于是,一些研究者提出了一种全新的实现人工智能的方案,那就是机器学习。

人类的聪明之处就在于可以通过既有的认知触类旁通地推理出未知的问题。如图1-9所示,人类看书(书就是数据)时,依靠自身的思考与学习从书中提炼出智慧;机器学习是让计算机利用已知数据得出适当的模型,并利用此模型对新的情境给出判断的过程。机器学习本质上是一种计算机算法,计算机通过大量样本数据的训练能够对以后输入的内容做出正确的反馈。训练的过程就是通过合理的试错来调整参数,使得出错率降低,当出错率低到满足预期的时候,就可以拿出来应用了。机器学习分为有监督学习和无监督学习。

图1-9 机器学习与人脑思考

机器学习的应用非常广泛,应用在文本方面就是自然语言处理,应用在图像方面就是图像(模式)识别,应用在视频上就是实体识别,应用在汽车上就是自动驾驶,等等。

机器学习重要的成果是2006年关于深度学习(Deep Learning)的突破。深度学习起源于20世纪八九十年代的神经网络研究。深度学习模型的灵感来自于人类大脑视觉皮层以及人类学习的方式,以工程化方法对功能进行简化。深度学习模型是否精确反映了人类大脑的工作方式还存在争议,但重要的是这一技术的突破让机器第一次在语音识别、图像识别等领域实现了与人类同等甚至超过人类的感知水平,从实验室走向产业,发挥价值。2017年11月,谷歌发布了TensorFlow Lite,这是一款深度学习工具,让开发者可以在移动设备上实时地运行人工智能应用,已开放给Android和iOS开发者使用。TensorFlow Lite发布时还提供了有限的预训练人工智能模型,包括MobileNet和Inception V3物体识别计算机模型,以及Smart Replay自然语言处理模型。开发者自己的数据集训练的定制模型也可以部署在上面。TensorFlow Lite使用Android神经网络应用程序界面(API),可以在没有加速硬件时直接调用CPU来处理,确保其可以兼容不同设备。

美国大笔投资在机器学习应用上,占美国整个AI投资的21%。这一领域是仅次于芯片的吸金领域(芯片投资的占比为31%)。机器学习热潮是由三个基本因素的融合推动的:(1)深度学习算法的持续突破;(2)大数据的快速增长;(3)机器学习的计算加速,如GPU芯片这样的机器学习硬件,将训练时间从几个月缩短到几天、几个小时。这些硬件芯片正在迅速发展,谷歌、英伟达、英特尔等公司都宣布推出下一代GPU芯片硬件,这将进一步加快训练速度10~100倍。

1.2.6 游戏

游戏是一个相对简单和可控的实验环境,因此经常用于AI研究。在游戏领域,AI已超过人类。

1. 国际象棋

20世纪50年代,一些计算机科学家预测,到1967年,计算机将击败人类象棋冠军。但直到1997年,IBM的“深蓝”系统才击败当时的国际象棋冠军Gary Kasparov。如今,在智能手机上运行的国际象棋程序可以表现出大师级的水平。

2. 围棋

2016年3月,谷歌DeepMind团队开发的AlphaGo系统击败了围棋冠军。DeepMind后来发布了AlphaGo Master,并在2017年3月击败了排名第一的柯洁。2017年10月,DeepMind发表在Nature上的论文详细介绍了AlphaGo的另一个新版本—AlphaGo Zero,它以100:0击败了最初的AlphaGo系统。

AlphaGo成功的背后是结合了深度学习、强化学习(Reinforcement Learning)与搜索树算法(Tree Search)三大技术。简单来说,当时的AlphaGo有两个核心:策略网络(Policy Network)和评价网络(Value Network),这两个核心都是由卷积神经网络所构成的。具体而言,首先在“策略网络”中输入大量棋谱,机器会进行监督式学习,然后使用部分样本训练出一个基础版的策略网络,并使用完整样本训练出“进阶版”的策略网络,让这两个网络对弈,机器通过不断新增的环境数据调整策略,也就是所谓的强化学习。而“策略网络”的作用是选择落子的位置,再由“评价网络”来判断盘面,分析每个步数的权重,预测游戏的输赢结果。当这两个网络把落子的可能性缩小到一个范围内时,机器计算需要庞大运算资源的负担减少了,再利用蒙特卡洛搜索树于有限的组合中算出最佳解。而AlphaGo Zero与AlphaGo不同,它没有被输入任何棋谱,而是从一个不知道围棋游戏规则的神经网络开始,仅通过全新的强化学习算法,让程序自我对弈,自己成为自己的老师,在这个过程中,神经网络不断被更新和调整。

3. 扑克

2017年,在宾夕法尼亚州匹兹堡,由卡耐基梅隆大学团队研发的人工智能系统Libratus和4位德州扑克顶级选手展开了一场为期20天的鏖战,经过12万手牌的比赛,Libratus获得了最终胜利,赢取了20万美元的奖金。Libratus的策略并非基于专业玩家的经验,它的玩牌方式有明显的不同。研发团队采用了一套叫作Counterfactual Regret Minimization(反事实的遗憾最小化)的算法,利用在匹兹堡超级计算机中心大约1500万核心小时的计算,它会先让Libratus反复地进行自我博弈,随机地玩上万亿手扑克,不断地试错,建立自己的策略,最终达到顶尖扑克玩家的水平。Libratus可以通过强大的计算和统计能力,把各种打法杂糅,并通过推理对其进行任意排列,将下注范围和随机性提高到人类牌手无法企及的程度,让人类玩家难以猜测自己手中到底握有什么样的牌。系统检测自身在每轮比赛中的弱点,每天补救最明显的失误,最终赢得比赛。

中国工程院院士高文总结了什么样的AI系统不需要外部数据就可以战胜人,实际上需要满足以下三个条件:


(1)集合是封闭的。无论是状态集还是其他集,集合都是封闭的,我们知道围棋集合是封闭的。

(2)规则是完备的。也就是说,下棋时什么地方能下,什么地方不能下,这个规则是完全完备的,不能随便更改。

(3)约束是有限的。也就是说,在约束条件下,不可以递规,因为有了递规之后,往下推演就停不下来,而有限的时候就能停下来。


满足这三个条件,不需要外部数据,系统自己产生数据就够了。所以可以预见,今后有很多情况,你可以判断这个人和机器最后谁能赢,满足这三个条件机器一定能赢,无论是德州扑克还是围棋,类似的情况很多。