第四节 数据视角下AI的技术布局
1.数据视角下的人工智能行业价值链
从数据流通的角度出发,可以将行业价值链分为四个环节:供给、流通、分析和需求。人工智能行业价值链存在一个微笑曲线:数据交易市场的完善与分析算法的趋同,会让两个环节的附加价值不断降低;而数据的供给侧与最后的解决方案,则会成为附加价值最高处。因此,占据特别的数据来源,将别人无法结构化的数据进行结构化转化,发现适合人工智能解决的实际需求并提供解决方案,也就成了价值最高的环节。
人工智能行业价值微笑曲线
(1)供给环节
供给环节,即采集数据的环节,是人工智能使用的数据进入到流通环节的入口。现阶段数据的供给主要有三种:
①自筹数据。即从零开始,投入大量资源采集数据。需要解决的问题有:采集什么、如何采集、采集以后如何处理;可能需要引入有经验的第三方数据解决方案提供商,比如Talking Data。
②公共数据。例如,美国、英国、加拿大、新西兰等国家已经建立了自己的线上数据平台,我国许多地方政府也在逐步走向开放,比如香港、上海、北京、武汉、无锡、佛山和南海等城市也已经初步上线数据平台。
③产业数据协同。下游创业公司或行业公司,跟产业链上游的数据或平台型公司合作,将对双方都有利的产品或数据都连接到一起。
简单的结构化数据无法满足人工智能的发展需求,人工智能的应用需要大量能够反映用户信息、行为的非结构化、情景化数据作为支撑,只有对这些数据进行具有针对性的识别,才能转化为后期可利用的数据。而非结构化数据的识别需要投入大量的研发,形成一个较高的技术壁垒。对整个人工智能产业价值链来说,能够产生巨大的价值。
(2)流通环节
数据流通的环节,即数据整合、交易的环节。分析层与应用层的人工智能厂商,不一定会涉及数据采集的自行采集,直接向拥有数据采集经验的基础层厂商购买数据是最高效、易行的方式。
目前,国内的数据交易市场发展并不成熟,许多数据交易都是在企业之间点对点进行的,缺少完善的数据交易市场体系。未来,无论是大数据,还是人工智能,都需要大量的多源化数据作为支撑,数据交易机制的形成成为一种必然。
数据交易市场的存在,可以消除交易摩擦、促进市场连接与匹配,但从产业价值链的角度出发,数据流通环节并不会参与全新的价值创造,因此数据流通环节带来的产业附加值并不会太高。
(3)需求环节
需求环节的主要作用是,将现实中的需求转化为人工智能需要解决的目标问题集,并概念化成一套亟待解决的方案。需求环节,对应着明确的行业解决方案,而这些方案的结果最终也将以潜移默化的形式出现在具体的日常应用中。例如,在Facebook上厌倦了各种晒娃的动态,也不需命令式地告诉它:“不要再出现这些晒娃照了!”Facebook可以通过往期的浏览速度、浏览历史等判断你是否对类似内容感兴趣,并在之后逐渐减少相关信息的推送。
可是,要想实现人工智能的解决方案应用并不容易,问题的发现与解决方案的提出都需要投入大量的人力和物力,这也是人工智能走出实验室、走向生活应用的关键一步。能够产生较高的价值,对人工智能技术提出了很高的要求。
(4)分析环节
人工智能的分析环节,也是人工智能利用数据级逆行建模、迭代算法的环节。
目前,人工智能的算法研究主要集中于学术科研机构与国际领先的互联网厂商,比如,Google、Facebook、微软等,这些机构与实验室为前瞻性的理论算法研究做出了重大贡献。此外,在某些具体的行业领域,还出现了一些具体的算法企业,其算法更具有针对性。
算法的开源推动了全球人工智能产业的发展,对于小企业来说,这将成为它们算法的基础。不过,这也意味着,在算法的分析层面上,各厂商之间的差距并不会太大。
2.数据视角下的AI产业布局
由于AI技术的发展离不开硬件设备的支持,因此硬件支持也就构成了人工智能发展的基础。
在人工智能的整个应用过程中,数据贯穿始终。根据数据生命周期,在数据的生命历程的各个环节——收集、链接、准备、认知、分析、预测,不同的企业进行了不同的分工。
按照对数据的利用程度不同,可以将人工智能大致划分为3个阶段:基础搜集阶段、数据分析阶段与具体应用阶段。按照人工智能对数据的利用程度,大致可以将其划分为3个层次:基础层、分析层与应用层。
(1)基础层
人工智能的基础层,主要从事的工作是:收集数据,并将自然语言、图片、视频等非结构化信息转化为结构化的可用于分析的信息。这些内容看上去相对简单,与人们印象中通用的人工智能相去甚远。但正是这些看似简单的部分,却构成了人工智能的基础。基础层的发展,推动了人类对于非结构化数据的处理,将丰富后期人工智能应用的进行。
(2)分析层
分析层主要利用基础层已经获得的数据,利用算法对其进行分析。在具体的分析过程中,会根据领域的不同和数据的差异化,选择合适的算法,然后不断地优化算法,进行更好的分析洞察。目前,以谷歌为首的人工智能领先企业已经逐渐将算法开源,这拉动了整个算法领域的发展,也推动着人工智能的进步。
谷歌以人工智能技术为依托,同时涉足人机交互、语言理解、机器人等人工智能核心技术领域,全方位布局人工智能产业。2015年以来,谷歌在机器学习领域实现突破,能力不断加强,实现了电脑操作游戏、排序网页以及与专业棋手对弈,先后开源第二代机器学习平台TensorFlow以及自然语言理解软件SyntaxNet的源代码,引领互联网巨头在人工智能领域开源的趋势。
(3)应用层
应用层主要是将人工智能应用于特定领域,例如:医疗、金融、自动驾驶等。这部分企业往往会提供最终的、可实际操作的人工智能产品。相对于基础层与分析层,应用层的企业涉及的领域层更广,或多或少都会使用到具体的算法分析。