2.1 基础层
人工智能产业链分为基础层、技术层和应用层。如图2-2所示,基础层包括芯片、传感器、大数据、云计算等领域,为AI提供数据或计算能力支撑。除了上述列出的领域外,其他领域,如大带宽也是人工智能基础层的内容。通过大带宽提供良好的基础设施,以便在更大范围内进行数据的收集,以更快的速度进行数据的传输,为大数据的分析、计算等环节提供时间和数据量方面的基本保障。
图2-2 基础层
海量数据是人工智能发展的基础,各类信息系统和传感器的数据是未来大数据的核心。伴随着物联网的发展,数据开始以指数级规模增长,大量数据应用到人工智能算法模型的训练中,AI得以快速发展。人工智能的技术也快速应用到大数据分析中,通过AI挖掘丰富数据背后的价值,从而可以极大地提高生产力。随着一些核心基础设施问题的解决,大数据应用层正在快速构建。一方面,专门的大数据应用几乎在任何一个垂直行业都有出现。另一方面,在企业内部,已经出现了各种AI工具。例如,智能客服应用为用户提供个性化企业服务。
2.1.1 芯片产业
随着中兴事件的发生,大家都高度重视芯片。的确,AI的“大脑”在于芯片和算法。AI芯片也被称为AI加速器或计算卡,即专门用于处理人工智能应用中的大量计算任务的模块。比如,今年谷歌的NMT神经网络机器翻译系统,参数量达87亿个,需要105 ExaFLOPS(百亿亿次浮点运算)的运算量。当前,AI芯片主要分为GPU、FPGA、ASIC和类脑芯片。在人工智能时代,它们各自发挥优势,呈现出百花齐放的状态。在美国人工智能企业中,融资占比排名第一的领域为芯片/处理器,融资315亿元,占比31%。有专家预测,到2020年,AI芯片市场规模将达到146.16亿美元,约占全球人工智能市场规模的12.18%。AI芯片由于投资周期长、专业技术壁垒厚,导致竞争非常激烈且难以进入。
AI芯片目前有三个技术路径,通用的GPU(既能作为图形处理器引爆游戏业务,又能渗透数据中心横扫训练端)、可编程的FPGA(适用于迭代升级,各类场景化应用前景超大)以及专业的ASIC(叩开终端AI的大门)。其中,英伟达、英特尔两大传统芯片巨头在三大路径,特别是通用芯片和半定制芯片都有布局,掌握强大的先发优势,在数据中心、汽车等重要蓝海布局扎实;ASIC方面,谷歌从TPU出发开源生态进行布局,且二代TPU展露了训练端芯片市场的野心,且ASIC定制化的特点有效规避了传统巨头的垄断局面,有着可靠健康的发展路线。表2-1总结了目前几个主流的AI芯片厂商。
表2-1 AI芯片厂商列表
英伟达是GPU的行业领袖。GPU是目前深度学习领域的主流芯片,拥有强大的并行计算力。而另一个老牌芯片巨头英特尔则是通过大举收购进入FPGA人工智能芯片领域的。谷歌的TPU是专门为其深度学习算法TensorFlow设计的,TPU也用在了AlphaGo系统中。2017年发布的第二代Cloud TPU理论算力达到了180T Flops,能够对机器学习模型的训练和运行带来显著的加速效果。类脑芯片是一种基于神经形态工程,借鉴人脑信息处理方式,具有学习能力的超低功耗芯片。IBM从2008年开始模拟人类大脑的芯片项目。苹果正在研发一款名为“苹果神经引擎(Apple Neural Engine)”的专用芯片。该芯片定位于本地设备的AI任务处理,把面部识别、语音识别等任务集中到AI模块上,提升AI算法效率,未来嵌入苹果的终端设备中。
自动驾驶系统与AI芯片紧密相关,比如,特斯拉的电动车使用的是英伟达的芯片。在美国市场上,正在逐渐形成英伟达与英特尔-Mobileye联盟两大竞争者。Mobileye被英特尔以每股63.54美元的价格收购。Mobileye的机器视觉算法与英特尔的芯片、数据中心、AI和传感器融合,加上地图服务,正协同打造一个全新的自动驾驶供应商。英特尔的EyeQ5芯片对标英伟达专为自动驾驶开发的Drive PX Xavier SoC,据说EyeQ5的计算性能达到了24 TOPS(万亿次/每秒),功耗为10瓦。
2.1.2 GPU
随着CPU摩尔定律的终止,传统处理器的计算力已远远不能满足海量并行计算与浮点运算的深度学习训练需求,而在人工智能领域反应出强大适应性的GPU成为标配。GPU比CPU拥有更多的运算器(Arithmetic Logical Unit),只需要进行高速运算而不需要逻辑判断,其海量数据并行运算的能力与深度学习的需求不谋而合。因此,在深度学习上游训练端(主要用于云计算数据中心),GPU是第一选择。目前,GPU的市场格局以英伟达为主(超过70%),AMD为辅,预计3~5年内GPU仍然是深度学习市场的第一选择。
截至目前,英伟达毫无疑问是这波人工智能浪潮最大的受益者。英伟达股价从2016年初的32.25美元上涨至2018年初的245.8美元,两年间其市值飙升近8倍,并迅速获得了英特尔的体量。英伟达的崛起完全得益于这场突如其来的人工智能大革新。
有些芯片商除了做芯片之外,还会在整个AI生态上进行布局。例如,英伟达拥有一个较为成熟的开发生态环境(CUDA,见图2-3),包括开发套件和丰富的库(见图2-3)以及对英伟达GPU的原生支持。据说在CUDA上面的开发者人数已经超过50万人。
图2-3 英伟达GPU开发环境CUDA、开发库和工具
2.1.3 FPGA
FPGA是现场可编程门阵列。下游推理端更接近终端应用,更关注响应时间而不是吞吐率,需求更加细分。目前来看,下游推理端虽可容纳GPU、FPGA、ASIC等芯片,但随着AI的发展,FPGA的低延迟、低功耗、可编程性(适用于传感器数据预处理工作以及小型开发试错升级迭代阶段)将凸显出来。
在FPGA的市场份额中,Xilinx为49%,主要应用于工业和通信领域,近年亦致力于云计算数据中心的服务器以及无人驾驶的应用。Altera(已被英特尔收购)的市场份额约为40%,定位跟Xilinx类似。莱迪斯半导体(Lattice Semiconductor)的市场份额约为6%,主要市场为消费电子产品和移动传输,以降低耗电量、缩小体积及缩减成本为主。Microsemi(Actel)的市场份额约为4%,瞄准通信、国防与安全、航天与工业等市场。目前,Altera的FPGA产品被用于微软Azure云服务中,包括必应搜索、机器翻译等应用中。
2.1.4 ASIC
ASIC是Application Specific Integrated Circuit的英文缩写。AI芯片的计算场景可分为云端AI和终端AI。英伟达首席科学家William Dally将深度学习的计算场景分为三类,分别是数据中心的训练、数据中心的推断和嵌入式设备的推断。前两者可以总结为云端的应用,后者可以概括为终端的应用。终端设备的模型推断方面,由于低功耗、便携等要求,FPGA和ASIC的机会优于GPU。
终端智能芯片的一个经典案例是苹果的A11神经引擎,它采用双核设计,每秒运算次数最高可达6000亿次。2017年9月,苹果发布了iPhone X,搭载64位架构A11神经处理引擎,实现了基于深度学习的高准确性面部识别解锁方式(Face ID),并解决了云接口(Cloud-Based API)带来的延时和隐私问题,以及庞大的训练数据和计算量与终端硬件限制的矛盾。
2.1.5 TPU
随着人工智能革新浪潮与技术进程的推进,AI芯片成了该领域下一阶段的竞争核心。2016年5月,谷歌发布了一款特别的机器学习专属芯片:张量处理器(Tensor Processing Unit, TPU),2017年又推出了它的第二代产品(Cloud TPU)。这是一种被认为比CPU,甚至GPU更加高效的机器学习专用芯片。2018年2月13日,谷歌云TPU机器学习加速器测试版向外部用户开放,价格大约为每云TPU每小时6.50美元。此举意味着这种曾支持了著名AI围棋程序AlphaGo的强大芯片将很快成为各家科技公司开展人工智能业务的强大资源,谷歌第二代TPU从内部项目迈向外部开发者、企业、专有领域走出了关键的一步。
据谷歌称,第一代TPU仅能够处理推理任务,而第二代TPU还可以用于机器学习模型的训练,这个机器学习过程中重要的部分完全可以在单块、强大的芯片上进行。2017年4月,谷歌曾通过一篇论文《In-Datacenter Performance Analysis of a Tensor Processing Unit》介绍了TPU研究的相关技术以及第二代芯片与其他类似硬件的性能比较结果。TPU可以帮助谷歌的各类机器学习应用进行快速预测,并使产品迅速对用户需求做出回应。谷歌称,TPU已运行在每一次搜索中:TPU支持谷歌图像搜索(Google Image Search)、谷歌照片(Google Photo)和谷歌云视觉API(Google Cloud Vision API)等产品的基础精确视觉模型,TPU也帮助了谷歌翻译质量的提升,而其强大的计算能力也在DeepMind AlphaGo的重要胜利中发挥了作用。谷歌正式涉入人工智能专属芯片领域,这是一个包含数十家创业公司,以及英特尔、高通和英伟达这样的传统硬件厂商的重要市场。随着时代的发展,谷歌、亚马逊和微软已不再是纯粹的互联网企业,它们都已或多或少地开始扮演起硬件制造者的角色。
谷歌其实也并不是TPU的唯一使用者,美国出行服务公司Lyft在2017年底开始参与了谷歌新型芯片的测试。Lyft希望通过使用TPU加速自动驾驶汽车系统的开发速度:TPU在计算机视觉模型的训练速度上具有优势,可将原先耗时数日的任务缩短至几小时内完成。
谷歌在其云平台上宣布了TPU服务开放的消息(见图2-4)。通过谷歌云平台(GCP)提供的Cloud TPU beta版自2018年2月12日起可用,其旨在帮助机器学习专家更快地训练和运行ML模型。Cloud TPU是谷歌设计的一种硬件加速器,旨在优化以加速和扩大使用TensorFlow编程的机器学习工作负载。Cloud TPU使用4个定制化ASIC构建,单个Cloud TPU的计算能力达到180万亿次浮点运算,具备64GB的高带宽内存。这些板卡可单独使用,也可以通过超快的专门网络联合使用,以构建数千万亿次级别的机器学习超级计算机(TPU pod)。Cloud TPU的目的是为TensorFlow工作负载提供差异化的性能,使ML工程师和研究者实现更快迭代。无须花费数日或数周等待商用级机器学习模型,就可以在一系列Cloud TPU上训练同样模型的不同变体,而且第二天就可以将准确率最高的训练模型部署到生产过程。使用单个Cloud TPU并遵循教程(https://cloud.google.com/tpu/docs/tutorials/resnet),就可以在不到一天的时间内训练ResNet-50,使其在ImageNet基准挑战上达到期望的准确率。
图2-4 谷歌的TPU
传统上,编写自定义ASIC和超级计算机的程序需要极高的专业度。而对于Cloud TPU而言,可以使用高级TensorFlow API进行编程,谷歌开源了一系列高性能Cloud TPU模型实现,比如ResNet-50(https://cloud.google.com/tpu/docs/tutorials/resnet)和图像分类模型(https://github.com/tensorflow/tpu/tree/master/models/official),用于机器翻译和语言建模的Transformer(https://cloud.google.com/tpu/docs/tutorials/transformer,https://research.googleblog.com/2017/08/transformer-novel-neural-network.html),用于目标检测的RetinaNet(https://github.com/tensorflow/tpu/blob/master/models/official/retinanet/README.md)。
云TPU同样简化了对机器学习计算资源的规划和管理。可以为自己的团队提供顶尖的机器学习加速,随着需求的变化动态调整自己的容量。相比于花费资金、时间和专业人才来设计、安装、维护一个实地的机器学习计算群(还需要专门化的供能、冷却、网络和存储),我们可以从谷歌多年以来优化过的大规模、高集成的机器学习基础设施受益。另外,谷歌云服务还提供了复杂的安全机制和实践的保护。伴随谷歌云TPU,它还提供大量的高性能CPU(包括英特尔Skylake)和GPU(包括英伟达的Tesla V100)。
有意思的是,谷歌宣布对第二代TPU的全面开放让英伟达警觉的神经再次紧绷。可以认为,谷歌是英伟达在人工智能算力市场最大的竞争对手。早在谷歌公布第一代TPU之时,英伟达CEO立马抛出市场上最好的GPU计算卡与TPU的性能对比图。而随着第二代TPU的发布及其在人工智能专有领域,特别是在搭载了谷歌TensorFlow框架的深度神经网络训练效率方面的表现,外界越来越认识到二者间的差距逐渐缩小。就在第二代TPU的进一步进化——Cloud TPU开放测试之时,它通过TensorFlow编程模型提供的算力已达180 tflops之巨,谷歌宣称一个Cloud TPU能在24小时内对ResNet-50模型训练达到75%的精度。而180 tflops的浮点操作也达到了超级计算机的算力级别。
谷歌在人工智能领域的雄心十分明显,从一开始对TPU的只字不谈到后来开放上云,谷歌已逐渐认识到算力市场的巨大潜力并渴求牢牢抓住这一契机。谷歌的人工智能生态系统在过去两年间为自家旗下的产品(包括智能语音与搜索图像识别、谷歌翻译)以及其他互联网应用的表现上提供了算力优势,TPU+TensorFlow+云训练的模式让谷歌获得了迄今为止其他科技巨头尚不具备的人工智能核心竞争实力。这一点已经引起其他科技公司的注意,他们认为,各行各业的公司都有自己的数据驱动业务,算力不应该被掌控在一家巨头手上。AI芯片崛起的背后是算力的战争。
2.1.6 亚马逊的芯片
据国外媒体报道,亚马逊正在研发一款人工智能芯片,主要用于亚马逊Echo和基于亚马逊Alexa虚拟助手的其他硬件设备。据称,这款芯片将极大地提高基于Alexa硬件设备的数据处理能力,从而让这些设备更迅速地响应用户的命令。此举让亚马逊成为继谷歌和苹果之后,又一家自主研发人工智能芯片的大型科技公司。这些科技公司之所以这样做,是为了实现自家产品的个性化。但对于英特尔和英伟达等传统芯片公司而言,他们的客户就要变成竞争对手了。
在过去的两年,通过收购和招募人才,亚马逊已经在研发芯片功能。2015年,亚马逊斥资3.5亿美元收购了以色列芯片厂商Annapurna Labs。2017年,Annapurna Labs对外宣布,正在研发一系列芯片,主要用于数据存储设备、WiFi路由器、智能家居设备和流媒体设备。如今Annapurna Labs正在为基于Alexa虚拟助手的硬件设备研发人工智能芯片。此外,亚马逊2017年12月底还以约9000万美元的价格收购了家用安防摄像头开发商Blink,这也在很大程度上提升了亚马逊的芯片设计能力。Blink最初开发用于视频压缩的芯片产品,后来转型生产基于这些芯片的摄像头。
开发一款基于人工智能算法的芯片,能让基于Alexa的硬件设备对于消费者而言更具吸引力。因为它意味着这些设备将具备更强的处理能力,无须把所有任务都推向云端。目前,亚马逊Echo内置的芯片相对简单,允许用户通过Alexa语音唤醒设备。当用户向亚马逊的数字助理Alexa发出请求时,信息会被传输到亚马逊的云端,云端服务器处理请求并将响应提交回设备。这就会造成一定的延迟,也为黑客拦截通信提供了可乘之机。如果将大部分语音识别任务留给设备自身处理,那用户体验将显著提升。在本地处理语音识别的能力将改善由数字助理驱动的任何设备(包括Echo系列智能音箱)的响应时间。
另外,亚马逊旗下的云服务部门也在招聘芯片工程师。业内人士称,这意味着亚马逊还在为其AWS(Amazon Web Services)数据中心的服务器开发人工智能芯片。如果亚马逊真的在为数据中心开发人工智能芯片,这也是在跟随谷歌的脚步。2016年,谷歌发布了一款名为Tensor Processing Unit的处理器产品,基于深度学习算法。谷歌当时表示,该芯片将驱动谷歌的一系列服务,包括搜索、街景(Street View)、图片和翻译等。谷歌从2013年起就在研发这款芯片,谷歌曾在一份声明中称:“这种局面在2013年变得更加迫切,当时我们意识到,快速增长的神经网络计算需求需要我们将数据中心的数量提高一倍”。
对于英特尔和英伟达而言,亚马逊自主研发数据中心芯片是一个不小的威胁。当前,英特尔控制着服务器主芯片市场98%的份额,而英伟达则为这些服务器开发与英特尔主芯片协同工作的人工智能芯片。FPGA芯片授权初创公司Flex Logix Technologies CEO(Geoff Tate)称:“如果这种趋势持续下去,将来,数据中心所有者将自主研发芯片,与当前的芯片供应商相竞争。”
2.1.7 芯片产业小结
摩尔定律的终止已成为业界共识,那么AI芯片的革命又从何说起?众所周知,当前的人工智能技术进程是奠定在神经网络与深度学习之上的,从人工智能发展史来看,经历了早期的控制论和简单神经网络、逻辑过程与编程革命、运筹学与博弈论、专家系统的兴起,人工智能技术进程在算法与算力的不断迭代中演化至今。而当前神经网络算法趋于稳固,在算法框架没有深刻变化的前提下,算力就成了唯一的更新焦点。
深度学习工程的两大关键环节training(训练)和inference(推测)需要大量的算力支撑,而GPU在训练环节扮演着不可或缺的角色。但随着人工智能应用场景的延伸,GPU并非所有深度学习计算任务的充分条件,FPGA(现场可编程门阵列)和ASIC(专有化集成电路)同样有着相当大的表现空间。前者通过内置可灵活组合的逻辑、IO、连线模块为专用计算服务,后者是不可配置的高度定制化芯片。谷歌TPU就是ASIC的一种方案。
凭借GPU,英伟达公司一直是AI趋势的最大受益者之一。因为其图形处理器(GPU)是训练AI系统的早期选择。GPU能够同时执行大量复杂的数学运算,这使它成为AI应用的最佳选择。后来,科技巨头纷纷研发自己的AI芯片,包括谷歌的TPU、苹果的神经引擎、微软的FPGA,以及亚马逊正在为Alexa研发的定制AI芯片。
亚马逊是人工智能的早期采用者,并且根据最近的报道,亚马逊正在研究可以在设备上进行处理或在边缘处理的定制AI芯片,而不是仅仅依靠将设备连接到云端。亚马逊在2015年初斥资3.5亿美元收购了以色列芯片制造商Annapurna Labs,这增强了它在处理器方面的能力。该公司为数据中心开发的网络芯片能够传输更大量级的数据,同时电力消耗更少。亚马逊目前拥有超过450名具有一定程度的芯片经验的员工,可能正在为其云计算部门AWS开发AI处理器。
2016年初,谷歌开始研发被称为张量处理器(TPU)的定制AI芯片。专用集成电路(ASIC)旨在为谷歌公司的深度学习AI应用程序提供更高效的性能,这些应用程序能够通过处理海量数据进行学习。该芯片为TensorFlow奠定了基础,TensorFlow是用于训练该公司的AI系统的框架。最新版本的TPU可以处理AI的训练和推理阶段。正如其名称所示,AI系统在训练阶段“学习”,推理阶段使用算法完成它们被训练的工作。谷歌最近宣布,谷歌云的客户现在可以访问这些处理器。谷歌的优势在于凭借自身TPU+TensorFlow+云的资源吸引开发者和拓展企业级市场、专有领域,但该模式的前提必须是谷歌极力维系TensorFlow作为深度学习主流框架而长期存在,一旦神经网络算法主流架构有变,TPU作为高度制定化的芯片产物,其单位成本之高恐酿成不可回避的风险。相反,倘若谷歌的计划顺利实施,其垄断的生态优势同样对英伟达形成巨大威胁。
苹果公司一直是用户隐私的支持者,并且走了一条与它的技术同行不同的道路。该公司的移动设备为传输到云端的任何数据添加电子噪音,同时剥离任何可识别个人身份的信息,从而更大程度地保证用户的隐私和安全。随着iPhone X的发布,苹果开发了一种神经引擎,作为其新的A11仿生芯片的一部分,该芯片是一款可在本地处理多种AI功能的先进处理器。这大大减少了传输到云端的用户信息量,有助于保护数据。
微软公司早前投注于可定制处理器——现场可编程门阵列(FPGA),这是一种专用芯片,可为客户的特定用途进行配置。这些已经成为微软Azure云计算系统的基础,并且提供比GPU等传统产品更灵活的架构和更低的功耗。
虽然这些公司都采用了不同的处理器策略,但他们仍在大量使用英伟达的GPU。英伟达CPU的使用增长仍在继续。在最近一个季度,英伟达公布了创纪录的29.1亿美元的营收,比上年同期增长了34%。该公司的数据中心部门(其中包含AI的销售)同比增长105%,达到6.06亿美元,目前占英伟达总收入的21%。竞争是不可避免的,但到目前为止还没有解决方案能够完全取代GPU。
调研机构Deloitte预测,2018年,基于深度学习的全球GPU市场需求大约在50万块左右,FPGA和ASIC的需求则分别是20万块和10万块左右。相比GPU集群,FPGA因其定制化、低功耗和忽略延迟的特点,在终端推测环节有着广泛应用,所以它被微软、亚马逊等云商以及苹果、三星等手机制造商所接受。而GPU与TPU作为训练环节的主力,则开启了两种不同产品形态争锋对立的局面,也就是说,在深度学习训练领域,完全成了英伟达和谷歌两者之间的战争。AI芯片战争已经全面打响,由人工智能进程引发的第二次芯片革命已经让业界嗅到了熟悉的工业革命的气息。正如19世纪蒸汽机、内燃机的迭代结束了大洋之上纵横数个世纪的风帆时代,人工智能算力的突破亦将成为摩尔定律的变革者,将延续了近一个世纪的计算机科学文明引入下一阶段。
2.1.8 传感器
如今的机器人已具有类似人一样的肢体及感官功能,有一定程度的智能,动作程序灵活,在工作时可以不依赖人的操纵。而这一切都少不了传感器的功劳,传感器是机器人感知外界的重要帮手,它们犹如人类的感知器官,机器人的视觉、力觉、触觉、嗅觉、味觉等对外部环境的感知能力都是由传感器提供的,同时,传感器还可用来检测机器人自身的工作状态,以及机器人智能探测外部工作环境和对象的状态,并能够按照一定的规律转换成可用输出信号的一种器件。为了让机器人实现尽可能高的灵敏度,在它的身体构造里会装上各式各样的传感器,那么机器人究竟要具备多少种传感器才能尽可能地做到如人类一样灵敏呢?
根据检测对象的不同可将机器人用的传感器分为内部传感器和外部传感器。内部传感器主要用来检测机器人内部系统的状况,如各关节的位置、速度、加速度、温度、电机速度、电机载荷、电池电压等,并将所测得的信息作为反馈信息送至控制器,形成闭环控制。而外部传感器用来获取有关机器人的作业对象及外界环境等方面的信息,是机器人与周围交互工作的信息通道,用来执行视觉、接近觉、触觉、力觉等传感器,比如距离测量、声音、光线等。
● 视觉传感器
机器视觉是使机器人具有感知功能的系统,其通过视觉传感器获取图像进行分析,让机器人能够代替人眼辨识物体,测量和判断,实现定位等功能。业界人士指出,目前在中国使用简便的智能视觉传感器占了机器视觉系统市场60%左右的份额。视觉传感器的优点是探测范围广、获取信息丰富,实际应用中常使用多个视觉传感器或者与其他传感器配合使用,通过一定的算法可以得到物体的形状、距离、速度等诸多信息。
以深度摄像头为基础的计算视觉领域已经成为整个高科技行业的投资和创业热点之一。有意思的是,这一领域的许多尖端成果都是由初创公司先推出的,再被巨头收购后发扬光大,例如Intel收购RealSense实感摄像头,苹果收购Kinect的技术供应商PrimeSense,Oculus收购了一家主攻高精确度手势识别技术的以色列技术公司Pebbles Interfaces。在国内计算视觉方面的创业团队虽然还没有大规模进入投资者的视野,但当中的佼佼者已经开始取得令人瞩目的成绩。
深度摄像头早在20世纪80年代就由IBM提出了相关概念,2005年创建于以色列的PrimeSense公司是该技术民用化的先驱。当时,在消费市场推广深度摄像头还处在概念阶段,此前深度摄像头仅使用在工业领域,为机械臂、工业机器人等提供图形视觉服务。由它提供技术方案的微软Kinect成为深度摄像头在消费领域的开山之作,并带动整个业界对该技术的民用开发。
● 声觉传感器
声音传感器的作用相当于一个话筒(麦克风),用来接收声波,显示声音的振动图像,但不能对噪声的强度进行测量。声觉传感器主要用于感受和解释在气体(非接触感受)、液体或固体(接触感受)中的声波。声波传感器的复杂程度可以从简单的声波存在检测到复杂的声波频率分析,直到对连续自然语言中单独语音和词汇的辨别。
从20世纪50年代开始,BELL实验室开发了世界上第一个语音识别Audry系统,可以识别10个英文数字。到20世纪70年代,声音识别技术得到快速发展,动态时间规整(DTW)算法、矢量量化(VQ)以及隐马尔科夫模型(HMM)理论等相继被提出,实现了基于DTW技术的语音识别系统。近年来,声音识别技术已经从实验室走向实用,国内很多公司都利用声音识别技术开发出了相应产品,比如科大讯飞、腾讯、百度等,共闯语音技术领域。
● 距离传感器
用于智能移动机器人的距离传感器有激光测距仪(兼可测角)、声纳传感器等,近年来发展起来的激光雷达传感器是目前比较主流的一种,可用于机器人导航和回避障碍物。
● 触觉传感器
触觉传感器主要是用于机器人中模仿触觉功能的传感器。触觉是人与外界环境直接接触时的重要感觉功能,研制满足要求的触觉传感器是机器人发展中的技术关键之一。随着微电子技术的发展和各种有机材料的出现,已经提出了多种多样的触觉传感器的研制方案,但目前大都属于实验阶段,达到产品化的不多。
● 接近觉传感器
接近觉传感器介于触觉传感器和视觉传感器之间,可以测量距离和方位,而且可以融合视觉和触觉传感器的信息。接近觉传感器可以辅助视觉系统的功能,来判断对象物体的方位、外形,同时识别其表面形状。因此,为准确抓取部件,对机器人接近觉传感器的精度要求是非常高的。这种传感器主要有以下几点作用:
(1)发现前方障碍物,限制机器人的运动范围,以避免障碍物碰撞。
(2)在接触对象物前得到必要信息,比如与物体的相对距离、相对倾角,以便为后续动作做准备。获取物体表面各点间的距离,从而得到有关对象物表面形状的信息。
● 滑觉传感器
滑觉传感器主要是用于检测机器人与抓握对象间滑移程度的传感器。为了在抓握物体时确定一个适当的握力值,需要实时检测接触表面的相对滑动,然后判断握力,在不损伤物体的情况下逐渐增加力量,滑觉检测功能是实现机器人柔性抓握的必备条件。通过滑觉传感器可实现识别功能,对被抓物体进行表面粗糙度和硬度的判断。滑觉传感器按被测物体滑动的方向可分为三类:无方向性传感器、单方向性传感器和全方向性传感器。其中,无方向性传感器只能检测是否产生滑动,无法判别方向;单方向性传感器只能检测单一方向的滑移;全方向性传感器可检测多个方向的滑动情况,这种传感器一般制成球形以满足需要。
● 力觉传感器
力觉传感器是用来检测机器人自身力与外部环境力之间相互作用力的传感器。力觉传感器经常装于机器人关节处,通过检测弹性体变形来间接测量所受力。装于机器人关节处的力觉传感器常以固定的三坐标形式出现,有利于满足控制系统的要求。目前出现的六维力觉传感器可实现全力信息的测量,因其主要安装于腕关节处被称为腕力觉传感器。腕力觉传感器大部分采用应变电测原理,按其弹性体结构形式可分为两种:筒式和十字形腕力觉传感器。其中,筒式腕力觉传感器具有结构简单、弹性梁利用率高、灵敏度高的特点;而十字形腕力觉传感器结构简单、坐标建立容易,但加工精度要求高。
● 速度和加速度传感器
速度传感器有测量平移和旋转运动速度两种,但大多数情况下,只限于测量旋转速度。利用位移的导数,特别是光电方法让光照射旋转圆盘,检测出旋转频率和脉冲数目,以求出旋转角度,并利用圆盘制成有缝隙,通过二个光电二极管辨别出角速度(转速),这就是光电脉冲式转速传感器。
加速度传感器是一种能够测量加速度的传感器。通常由质量块、阻尼器、弹性元件、敏感元件和适调电路等部分组成。传感器在加速过程中,通过对质量块所受惯性力的测量,利用牛顿第二定律获得加速度值。根据传感器敏感元件的不同,常见的加速度传感器包括电容式、电感式、应变式、压阻式、压电式等。
2.1.9 传感器小结
机器人要想做到如人类般灵敏,视觉传感器、声觉传感器、距离传感器、触觉传感器、接近觉传感器、力觉传感器、滑觉传感器、速度和加速度传感器这8种传感器对机器人极为重要,尤其是机器人的五大感官传感器是必不可少的,从拟人功能出发,视觉、力觉、触觉最为重要,目前已进入实用阶段,但其他的感官,如听觉、嗅觉、味觉、滑觉等对应的传感器还等待一一攻克。
人工智能目前正在为社会的方方面面带来革新。比如,通过结合数据挖掘和深度学习的优势,我们可以利用人工智能来分析各种来源的大量数据,识别各种模式,提供交互式理解和进行智能预测。这种创新发展的一个例子就是将人工智能应用于由传感器生成的数据,尤其是通过智能手机和其他消费者设备所收集的数据。运动传感器数据及其他信息(比如GPS信息)可提供大量不同的数据集。本节最后以常见的运动传感器为例来说明AI和传感器的综合应用。一个常见的应用是通过分析使用的数据来确定用户在每个时间段的活动,无论是坐姿、走路、跑步还是睡眠的情况下。在活动跟踪方面,原始数据通过轴向运动传感器得以收集,例如智能手机、可穿戴设备和其他便携式设备中的加速度计和陀螺仪。这些设备获取三个坐标轴(x、y、z)上的运动数据,以便于连续跟踪和评估活动。
对于人工智能的监督式学习,需要用标记数据来训练“模型”,以便分类引擎可以使用此模型对实际用户行为进行分类。只获取原始传感器数据是不够的。我们观察到,要实现高度准确的分类,需要仔细确定一些特征,即系统需要被告知对于区分各个序列重要的特征或者活动。为了进行活动识别,指示性特征可以包括“滤波信号”,例如身体加速(来自传感器的原始加速度数据),或“导出信号”,例如高速傅里叶变换(FFT)值或标准差计算。举例来说,加州大学欧文分校(UCI)的机器学习数据库创建了一个定义了561个特征的数据集,这个数据集以30名志愿者的6项基本活动(即站立、坐姿、卧姿、行走、下台阶和上台阶)为基础。使用默认的LibSVM内核训练的模型进行活动分类的测试准确度高达91.84%。在完成培训和特征排名后,选择最重要的19项功能足以达到85.38%的活动分类测试准确度。经过对排名进行仔细检查,我们发现最相关的特征是频域变换以及滑动窗口加速度原始数据的平均值、最大值和最小值。有趣的是,这些特征都不能仅仅通过预处理实现,传感器融合对于确保数据的可靠性十分必要,因此对分类尤为实用。
2018年2月,谷歌宣布已经与LogMeIn签订协议,以5000万美元收购LogMeIn旗下的物联网部门Xively。根据公告,谷歌预计到2020年将有200亿台设备联网,而它可以凭借这笔收购布局物联网市场。Xively为设备厂商提供工具,实现设备联网功能,同时将设备与用户手机中的App连接起来。这将帮助Google Cloud实现其物联网野心:获得海量物联网设备的数据,并进行存储与分析。Google Cloud通过本次收购将获得领先的物联网技术、工程技术以及Xively的设备管理、通信能力。谷歌在2018年的CES上推出了Smart Display平台,希望让Google Assistant进入多家厂商的产品中。与谷歌合作的厂商有Altec Lansing、Anker、Bang & Olufsen、Braven、iHome、JBL、Jensen、LG、联想、Klipsch、Knit Audio、Memorex、RIVA Audio和索尼等。
通过传感器为用户提供真正的个性化体验已成为现实,通过人工智能,系统可以利用由智能手机、可穿戴设备和其他便携设备的传感器所收集的数据为人们提供更多深度功能。未来几年,一系列现在还难以想象的设备和解决方案将会得到更多发展。人工智能和传感器为设计师和用户打开了一个充满激动人心的机会的新世界。