2.3 中国
中国人工智能的市场规模增速高于全球增速。2015年,中国的人工智能市场规模为12亿元,其中,语音识别占60%,计算机视觉占12.5%,其他占27.5%。在只考虑语音识别、计算机视觉,不考虑硬件产品销售收入、信息搜索、资讯分发、精准广告推送等的情况下,英国广播公司(BBC)预计全球人工智能的总体市场规模在2020年达到1190亿元,预测中国的人工智能市场规模在2020年达到91亿元。
从上述数据中可以看出,中国的人工智能发展迅猛,并且从企业的角度或国家的角度都做了长远的规划。要想长久、有效地发展人工智能技术,硬件设施就要够“硬”。人工智能技术依托大数据而成长,而处理海量的数据则需要解决高性能计算的难题。深度学习算法通过构建含有多层隐含层的人工神经网络和海量的数据来对模型进行训练,去学习更有用的特征,最终提升预测和分类的准确性,使最后训练得到的模型参数接近真实数据,达到预测的效果。深度学习需要进行大量的并行计算,而传统的中央处理器(CPU)往往需要数百甚至成千上万条指令才能完成一个神经单元的处理,无法支撑深度学习中大规模数据的并行计算,因此,深度学习需要新的芯片来对大规模的并行计算进行加速。目前,常用的加速深度学习并行计算的人工智能芯片有图形处理器(GPU)、现场可编程门阵列(FPGA)、专用集成电路(ASIC)和处于理论阶段的类脑芯片。深度学习的训练需要强大的计算能力做支撑。人工智能因其自身神经网络模型结构的复杂性,以及训练深度神经网络需要大量的高阶统计数据,对于计算能力的需求非常大。与李世石对弈的谷歌AlphaGo有1920个CPU加280个GPU,而这只是比赛时执行深度学习算法的计算机系统。训练该深度学习算法的计算机网络规模至少要提高一个数量级,而提供该训练计算能力的计算机网络才是AlphaGo持续进化的原动力。
未来人工智能芯片的应用大体有两个方向。其一是用于云端服务器的芯片,为满足云端的高运算需求,芯片预计将以CPU/GPU搭配为主,其主要特点是高功耗、高计算能力及通用性。云端人工智能运算对于具体应用场景的要求较少,通用芯片即可满足要求。其二是用于终端(如手机及其他智能硬件)的人工智能芯片,由于终端运算空间有限,所以对于芯片的要求主要是低功耗的同时又针对不同场景有所区分,因此,定制及半定制化的FPGA、ASIC及类脑芯片有望成为研究的主流方向。CPU/GPU并行在人工智能云端中被广泛运用。计算能力的限制曾经是人工智能研究跌入低谷的原因,但随着摩尔定律的发展,计算能力逐步得到解放。CPU的性能飞速提升,最初被用来训练深度学习,但不久发现拥有出色的浮点计算性能的GPU更适合用来做深度学习的训练。GPU提高了深度学习的两大关键活动——分类和卷积的性能,同时又达到了所需的精准度,相对于传统的CPU,GPU拥有更快的处理速度、更少的服务器投入和更低的功耗。在文本处理、语音和图像识别上,CPU/GPU并行不仅被Google、Facebook、百度、微软等巨头公司采用,也成为猿题库、旷视科技这类初创公司训练人工智能深度神经网络的选择。
除了软件算法模型、硬件底层基础设施建设,各大公司也看准了智能硬件这个待开发的领域。智能硬件基于人工智能的算法模型对传统硬件设备进行优化改造封装,进而使其具有智能化的操作功能。智能硬件通过蓝牙或者Wi-Fi实现设备互联,用户可以通过手机等其他移动设备进行操控,甚至可以进行语音对话,让智能硬件自己完成相应的命令操作。硬件智能化之后实现了互联网服务的加载,具备了大数据等附加价值。智能硬件已经从可穿戴设备延伸到智能电视、智能家居、智能汽车、医疗健康、智能玩具、机器人等领域,比较典型的智能硬件包括Google Glass、小度音箱、Fitbit、麦开水杯、小米手环等。对于整个人工智能产业而言,智能硬件的功能除了打开C端消费市场之外,更为重要的是通过智能硬件及加载的软件抢占C端入口,从而进行终端数据的采集,为后续算法的完善及商业模式的推进奠定良好的基础。
下面介绍国内人工智能各个领域的发展情况。
2.3.1 机器人领域的现状
机器人按照应用领域的不同可分为工业机器人、服务机器人、特种机器人。我国工业机器人的研发起步于二十世纪八十年代后期,已经在全国范围内建立了7个机器人科研基地及9个机器人产业化基地,在我国政府部门发布的高档数控机床与基础制造装备专项中增加了7个机器人项目。从整体上看,与日本、德国等机器人强国相比,中国的机器人产业仍处于初级发展阶段。
如今,在政府支持创新创业政策的引导下,国内机器人产业得以迅速发展,很多公司独立进行研发或者联手科研机构合作研发。我国的机器人产业已经实现了初级规模化生产,且正在进行产业升级。当前,长三角地区、珠三角地区、环渤海地区及部分中西部地区成为国内机器人发展的主要区域。
长三角地区的电子产业发达且拥有坚实的技术基础,机器人产业起步以后凭借着这种天然的优势发展迅猛,当地机器人产业的发展抢占了先机,竞争力强。长三角地区的机器人产业主要位于上海、南京及苏杭等地,注重引进国外科技,在工业机器人方面有先进的技术成果。例如,安川、库卡等国外的知名企业在上海建有分厂,国内的很多企业也在上海开设了分公司。在科研方面,长三角地区有一大批富有实力的科研机构,如上海交通大学生命科学技术学院等。
珠三角地区的机器化生产偏向于控制系统的应用,以广州数控设备有限公司(以下简称广州数控)为代表的南方智能化企业,注重控制系统的开发和生产,在机床数控方面有着明显的优势,是我国机床数控产业的知名供应基地。广州数控的数控系统连续13年蝉联国内销量冠军,销售规模占据国内该行业总销量的一半。广州数控、广州瑞松科技有限公司是珠三角地区的知名机器人企业,广州机械科学研究院则是珠三角地区的代表性科研机构。沿海地区经济发展水平高、工业发达,对工业机器人的需求量较大,全国一半以上的工业机器人使用分布在上海、江苏、广州等地,珠三角地区对机器人的需求量也非常高。
环渤海地区涵盖了北京、哈尔滨及沈阳等地,该区域内科研机构林立,培养了大批专业人才,在科研方面有着不菲的成绩,科研单位有北航、哈工大、中科院等。哈工大机器人集团是环渤海地区机器人企业的典型代表,该公司经过长期的发展积累了丰富的经验,拥有强大的实力,对整个行业的发展起着重要作用。
由于传感器、人工智能、大数据、物联网等技术的运用,机器人产业中涌现出新的制造模式和商业模式——服务机器人。相较于工业机器人,服务机器人与个人、家庭生活的联系更为紧密,2015—2018年,个人及家庭用服务机器人全球销量达到2590万台,市场规模达到122亿美元。目前,我国服务机器人需求领域包括养老、监护等社会需求,国防、公共安全、救援抢险、科学考察等国家重大需求,智能家居、教育、保洁等个人及家庭消费需求。服务机器人的重点在于服务,包括基于特殊场景应用的服务及人工智能的建设。我国在助老助残、公共教育、家庭服务、智慧城市、医疗康复、信用安全、救援救灾、能源安全、公共安全等科学研究领域,为满足智慧生活、智慧服务、智能作业等方面的需求,将重点发展消防救援机器人、手术机器人、智能型公共服务机器人、智能护理机器人4种标志性产品,着力打造系列化的专业服务机器人和商品化的个人及家庭服务机器人,这一目标的实现需要重点突破人机协同与安全、产品创意与性能优化设计、模块化/标准化体系结构设计、信息技术融合、影像定位与导航、生肌电感知与融合等关键技术。
2.3.2 图像识别领域的现状
计算机视觉领域主要包括图片/视频识别与分析、人像与物体识别、生物特征识别、手势识别、体感识别和环境识别。提升计算机视觉的识别效果是通过引入卷积操作,将深度模型的处理对象从之前的小尺度图像扩展到大尺度图像。由此研究者们提出了卷积深度信念网络(CDBN,Convolutional Deep Belief Networks),通过可视化每层学习到的特征,演示低层特征不断被复合生成高层抽象特征的过程。通过深度学习建立单元之间的高阶相关模型,用基于模型的能量函数中隐单元和可见单元来得到更高的模型表示能力,即可对复杂层次结构的数据进行建模。深度结构模型从数据中学习多层次的特征表示,来模仿人类大脑的基本结构和处理感知信息的方式,它包含一系列连续的多阶段处理过程,首先检测边缘信息,然后检测基本的形状信息,依次递进,逐渐地上升为检测更复杂的视觉目标信息。
深度学习研究的初衷主要就是应用于图像识别。迄今为止,尽管深度学习已经被应用到语音识别、图像识别、文字识别等方面,但深度学习领域发表的论文中约70%是关于图像识别的。从2012年的ImageNet竞赛开始,深度学习在图像识别领域发挥出较大潜力,在通用图像分类、图像检测、光学字符识别(OCR)、人脸识别等领域中,最好的系统都是基于深度学习开发的。
生物识别技术是图像识别技术的一个重要分支,其市场规模不断增大,是未来5年内极具发展潜力的市场。预计2020年全球生物识别技术的市场规模将达到250亿美元。
2.3.3 医疗领域的现状
精准的图像识别与庞大的医疗影像数据为医疗影像智能化奠定了基础。目前,医疗数据中有超过90%来自医疗影像,这些数据大多要进行人工分析,如果能够运用算法自动分析影像,再将影像与其他病例的记录进行对比,就能极大地降低医学误诊,帮助医生做出准确的诊断。医疗影像智能分析是指运用人工智能技术识别及分析医疗影像,帮助医生定位病症和分析病情,辅助做出诊断。人工智能与医疗影像的结合最关键有三点:一是数据,二是算法,三是临床的证明,其中数据与算法是基础。在数据方面,我国X光设备的保有量超过3万台,CT设备的保有量超过2万台,基层医院已大部分配备了直接数字化(DR)设备。图像识别是深度学习等人工智能技术最先突破的领域,已经广泛用于图片搜索、自动驾驶、人脸识别。在医疗健康领域,由于数据与算法基础已经具备,医疗影像有望成为人工智能与医疗结合中最先发展起来的领域。
除了医疗影像,人工智能还用于医疗诊断。医疗诊断领域最重要的是药品、病情特征、病人情况数据信息。对于机器训练而言,需要海量的数据信息才能让机器拥有医疗诊断的能力。辅助诊断领域的代表是IBM沃森(Watson)系统。截至2015年5月,Watson系统已收录了肿瘤学研究领域的42种医学期刊、临床试验的60多万条医疗证据和200万页文本资料。之后,IBM公司的沃森健康部门又陆续与数家医院、诊所、肿瘤研究中心、连锁药品零售商展开了深度合作。通过Watson系统可帮助护士快速完成复杂的病历检索,审查医疗服务提供者的医疗请求,为癌症患者诊断配药,为医药专家提供更多的疾病考量因素等。
2.3.4 语音识别领域的现状
在过去200年的时间里,基本的人机交互形式不断进化;在过去的75年当中几乎每隔10年,交互方式就有一个大的创新,如今语音识别已成为人机交互的新方式。语音技术逐步通用化和基础化,预计未来将对大众免费开放。例如,百度在2017年11月30日宣布其语音技术全系列接口永久免费开放,包括语音识别、语音合成、语音唤醒多平台的软件开发工具包(SDK)。通用算法技术成为免费平台的趋势已经呈现,语音识别领域需要商业模式的创新,如何将技术转换成产品、流量及数据等才是真正实现盈利的关键。
技术的进步与市场的需求推动语音识别快速发展。狭义的语音识别就是让机器能够明白你说的是什么,广义的语音识别是机器不仅能理解语音含义,而且能把语音转化为文字、另一种语言或者命令。语音识别能够在社交娱乐、搜索、虚拟机器人中大规模应用主要得益于以下两个原因:其一是技术的进步,语音识别算法模型的改进及训练效果的提升使得语音识别错误率不断降低;其二是市场的需求,个人消费层面的社交娱乐需求催生行业热情,语音识别作为重要的人机交互方式其应用场景广阔。
从2009年开始,尽管将深度神经网络用于语音识别的研究困难重重,但是研究者们还是取得了极大的进展。这让人们看到了深度学习算法在语音识别领域应用的曙光,重新点燃了对语音识别研究的热情,因此,语音识别的效果不断提升,国内的语音识别与合成技术已领先国际水平。2010年,深度卷积神经网络(DCNN)使语音识别的错误率降低了20%,2011年,微软用DCNN对语音识别原有技术框架进行重构,2012年又公开演示了其全自动同声传译系统。我国科大讯飞股份有限公司(以下简称科大讯飞)是语音识别研究的龙头企业,科大讯飞改进了循环神经网络(RNN)模型,使语音识别的效果提升了40%。科大讯飞于2016年在国际重要比赛CHiME中包揽3项冠军,并在2017年的语音合成大赛中获得第一名。
截至2017年第三季度,科大讯飞自身的开放平台累计终端数增长了87%达到15.9亿个,第三方创业团队增长123%达到45万个,日均使用次数增长56%达到40亿次。开放平台的大数据广告业务继续保持快速增长,前三季度收入同比增长241%。从国际大型互联网企业的角度看,2017年3月,谷歌和亚马逊先后宣布旗下的语音识别技术对大众开放。国内企业腾讯和阿里巴巴已在早前先后开放其语音平台。目前,科大讯飞的主要精力已经逐步转移到对接教育、法律、医疗、汽车等行业客户。阿里巴巴目前已经在智能电视、智能汽车、智能法庭、智能客服等领域应用其语音技术进行行业的深度下沉。
2.3.5 自动驾驶领域的现状
我国自动驾驶领域的研发相对滞后,自二十世纪九十年代起,国内各高校和研究机构陆续开展自动驾驶的研发工作,推出多个测试车型。2009年以来,国家自然科学基金委员会举办的中国智能车未来挑战赛吸引了众多高校和研究机构参与,成为国内智能车发展的里程碑。2015年,国务院发布并实施智能制造战略,将无人驾驶作为汽车产业未来转型升级的重要方向之一。
自动驾驶作为新兴科技正被频频讨论和研究,但在术语上存在混乱不清的情况。我们主要参考了美国高速公路安全管理局(NHTSA)和国际汽车工程师学会(SAE)的标准划分文件,以及国内依据SAE分级形成的智能网联汽车智能化等级标准,并顾及国内行业对术语使用习惯的规范,对自动驾驶这一概念做出解释。需要注意的是,NHTSA更多是从法律层面给技术设置门槛,而SAE更注重技术层面的信息描述和传达。国内的官方机构在二者兼顾的同时更关注目前业界通用的SAE标准。
自动驾驶的掌控权主要在于算法。自动驾驶是一个宽泛的概念,涵盖高级驾驶辅助系统(ADAS,Advanced Driving Assistance System)和无人驾驶。应用高级驾驶辅助系统的驾驶人可以对汽车进行控制,其智能体现在对环境的智能感知并适时预警(如车道偏离预警)。无人驾驶是自动驾驶发展的高级阶段,除了对环境的智能感知,还加入了规划、决策和控制。在高级驾驶辅助系统中最终的决策和控制权掌握在驾驶人手中,而无人驾驶对汽车的决策和控制权则由计算机掌握。
智能感知系统和智能控制系统是自动驾驶产业链的核心环节。自动驾驶汽车主要依靠车内以计算机系统为主的智能驾驶仪来实现自动驾驶,主要包括智能感知系统和智能控制系统。智能感知系统包括环境感知、速度感知等。智能控制系统主要包括自动泊车、自动刹车、智能巡航等。自动驾驶涉及的硬件核心是传感器,传感器包括激光测距仪、摄像头等。自动驾驶的软件核心是高精度地图,自动驾驶汽车需要将实时感知到的数据与地图数据比较,以此来识别周边环境。
目前,互联网公司与传统汽车生产商引领着智能驾驶的发展方向。参与自动驾驶领域研究的企业可以分为两类:一类是互联网公司(如百度、谷歌),一步到位直接切入全自动驾驶;另一类是传统的汽车生产商,从辅助驾驶一步步升级。随着CPU/GPU并行计算能力的提升,海量地图数据为人工智能的训练提供基础,加之高速网络、云计算的结合,汽车智能化已经进入了实质性阶段。
2.3.6 安防领域的现状
视频监控系统自诞生之日起,经历了持续不断的优化和迭代。视频监控系统的发展大致经历了3个阶段。第一阶段始自二十世纪八十年代,主要采用模拟的方式实现视频监控的功能,录制的视频在同轴电缆中进行信号的传输,之后在控制主机的监控下进行模拟信号的显示。第二阶段始自二十一世纪初,视频监控实现了远距离视频联网,但仍没有完全实现数字化,视频以模拟的方式通过同轴电缆进行信号传输,在多媒体控制主机及硬盘刻录主机中进行数据处理和储存。该阶段的视频质量虽然相对第一阶段有所提高,但还是不能够满足人们的需求,安防和监控领域的分析和管理仍然是个难题。第三阶段始自2006年,随着数字技术与网络技术的发展,安防领域的视频技术也进入了高清化与网络化阶段,具体体现为前端高清化、传输网络化、处理数字化和系统集成化。
面对庞大而复杂的城市系统,公安部门要做到信息的实时发布、监控、分析和智能化管理,以确保整个系统的决策和命令能够稳妥迅速地传达、执行并得到反馈,高度集成的可视化终端是必不可少的。装载在城市各个角落的视频监控系统承担了城市管理系统的职责,成为“智慧安防”的核心部件,也成为“智慧城市”的重要组成部分。
然而,当前安防系统的有效运转受到了较大的挑战,主要是每日产生的海量视频监控数据与有限的人工分析能力之间的矛盾。根据博思数据研究中心的调查数据,截至2016年,中国前端摄像头出货量已达到4338万台,预计2020年的出货量会达到5422万台。这意味着中国每日视频监控录像达千万亿字节(PB),而过去累积的历史数据更多,并且99%以上的视频监控数据都是非结构化数据。利用“人海战术”进行视频检索和分析的方式,不仅需要消耗大量的人力,而且效果不佳。英国市场研究机构IMS Research的一项实验表明,盯着视频画面仅仅22分钟之后,人眼将对视频画面里95%以上的活动信息视而不见。面临以上种种问题,对视频监控系统进行优化和升级成为安防领域的刚性需求。