数据、人工智能和技能战略
随着企业开始在业务流程中部署人工智能技术,企业面临着各种各样的抉择:投资哪些能力,内部开发还是外部获取,使用哪个平台和工具,以及如何寻找或培养人工智能人才和技能。做好这一点的第一步是制定一个全面的数据和人工智能战略。
数据是实现今天的人工智能解决方案的核心要素。机器学习的吸引力的一个重要部分是它能够根据数据训练更准确的模型,而不是手工编写规则、明确定义应用程序行为方式的传统模式。数据继续以指数级的速度增长,每两年翻一番,预计到2025年将达到175泽字节[4]。企业数据的多样性也在增长。过去局限于关系数据库和数据仓库形式的传统结构化数据,现在已经被文本、音频、视频和传感器数据等形式的非结构化数据所取代。数量和种类的增长将继续得到组织对抓取和使用非结构化数据的持续需求的驱动。这些非结构化的数据涉及其业务的各个方面,包括供应链、客户数据、社交媒体互动等。企业正在不断意识到这些数据的价值,需要在抓取、存储和利用各种数据方面十分重视,并将其作为业务的一部分。
数据量和重要性的增长为人工智能对商业的下一轮重大影响创造了条件。人工智能可以基于非结构化数据训练模型做出更准确的预测,推动更好的决策并改变商业流程。企业将能够使用训练的人工智能模型提高运营效率,做出更明智的决策,加快创新的速度,来创造新的产品和服务。有效的人工智能战略始于数据,但也需要投入数据科学,将人工智能模型与企业目标相互联系。
人工智能领域最重要的进展来自监督环境下的数据驱动学习技术。这意味着数据被打上了标签。例如,汽车保险公司可以在索赔处理过程中根据车辆照片描述的损坏情况为数据分配标签。电信运营商可能需要根据更换的原因标记客户的流失。对数据进行标记需要投资,但投资也创造了附加价值,并且能够支持构建更强的人工智能预测能力。上述案例的意义在于标记的数据可以用来训练人工神经网络模型,从而改善甚至改变业务流程。在保险索赔的案例中,人工智能可以通过自动检测和评估损失协助索赔过程;在客户流失的案例中,人工智能模型可以对更换运营商做出更早、更准确的预测。
在不可能或无法有效投资创建标签数据的情况下,抓取和使用无标签的数据可能仍有价值。例如,电信运营商这种企业可能保有大量人与人的聊天记录。这种原始数据可以被抓取和存储。如果对该数据进行标记,则可能有助于使用监督学习训练人工智能对话模型,可以自动处理其中的一些聊天会话。如果没有标记,它仍然可以帮助建立人工智能系统,自动搜索和检索文件或先前的聊天会话以帮助人类智能。
企业人工智能战略的一个重要内容是认识到人工智能并不是一个单纯的技术或解决方案。若要开始实施人工智能战略,企业领导者需要增加自己对人工智能的认识,了解人工智能技术的范围,具体的解决方案如何整合到企业的日常运营以创造价值,以及如何适合现有的技术栈[5]和工作流程。构建成功的人工智能战略的一个关键步骤是明确企业的哪些业务流程可以被重构为有监督机器学习驱动的工作流程。这一进路代表着在最近的机器人流程自动化(Robot Process Automation,RPA)取得的进展基础上的下一个生产力前沿。
组织领导者可以选择与第三方公司合作来获得人工智能能力或订购人工智能服务,或是组建具有人工智能技能的内部团队直接开发相应能力,还可以设计一个组合战略,从外部引进部分能力,其他能力则在内部开发。任何一种选择都需要拥有强大的人工智能专业知识的人员进行支撑。在企业内部有效地利用人工智能,需要拥有多样化的技能体系,包括数据工程师(负责数据处理、整合和准备),数据科学家,人工智能研究员和工程师(开发和维护底层的核心人工智能功能),用户界面或人机交互专家(指导技术设计,将其置于业务和工作流程环境下),以及软件工程师(实施、部署和维护由此生成的业务应用程序)。目前,拥有构建人工智能系统的必要专业知识的人员严重短缺。最近的报告估计拥有开发人工智能系统的专业知识的人数可能低至22000人;而不太保守的报告估计全球有20万至30万人。据猜测,目前总计约有数百万人工智能和数据科学岗位空缺,对人工智能技能的需求继续急剧上升,许多大公司正在进行人工智能人才的“抢人大战”。
这也就涉及了企业人工智能战略的另一个关键组成部分,即确定如何吸引和留存拥有人工智能技能的人才。技能教育和培训必须与在人工智能方面取得进展、创造新的解决方案以及与人工智能系统相互协作所需的实际技能相匹配。近期的一份报告列出了企业采用人工智能的一些阻碍因素,包括数据挑战、企业文化、硬件和其他资源等,但人工智能技能差距被列为头号阻碍。
为了解决对人工智能技能的需求,公司可能会尝试传统途径,即公开发布招聘信息以及直接雇用应届大学毕业生或人工智能领域经验丰富的专业人士。由于大学里拥有大量学习和从事人工智能研究的学生和学者,教育已经成为专业技能和知识发展的一个关键渠道。正如我们所观察的,行业对专业知识发展的高度关注使很多知名在线学习平台都提供了由知名大学教授讲授的人工智能、机器学习和其他学科的在线课程。部分公司采取了更极端的策略,雇用大量的教师和学生,或收编一所大学的整个院系为其人工智能团队配备人员。
另一个策略是制订计划,对现有员工进行再培训和技能训练。一些大型企业已经设立了人工智能学院或人工智能大学等机构,由IBM公司和亚马逊等公司提供培训和技术支持。在企业内部获取或培训人工智能人才的特定方法也是企业人工智能战略的关键组成部分之一。
人工智能领域正在持续快速发展。因此,企业需要雇用具有高级技能的人工智能研究人员以保持与先进技术同步。最低标准是这些人工智能研究人员至少需要能够阅读最新的科学文献,使用最新的人工智能开源工具,识别和主持最新的神经网络设计、学习算法和模型,将它们与企业应用连接起来。更进一步的情况下,这些人工智能研究人员需要设计新的神经网络,创造新的学习算法,开发新的方法训练人工智能模型。人工智能研究人员需要掌握在机器学习、自然语言处理、计算机视觉、语音处理和机器人学等领域的高级技能。
人工智能研究人员与人工智能工程师协作,他们负责开发和实施人工智能系统。人工智能工程师将最新的神经网络、学习算法和模型整合到企业应用中,需要解决这些应用程序在构建时和运行时两方面的问题。构建时要求对包括神经网络模型的训练,以及确保信任、公平、可解释性和其他方面的稳健性。这些任务并不局限于一次性的构建,因为在实践中训练需要持续进行。运行时要求需要满足以支持必要的数据传输速率和数据量,在应用中部署人工智能模型。人工智能工程师需要掌握Python/C++/R/ Java等编程语言技能,拥有分布式计算、机器学习算法和高级信号处理的经验,与负责训练特定模型的数据科学家进行协作。
数据科学家需要主持和整理数据集,用于训练、验证和测试人工智能模型。这些数据科学家需要掌握概率和统计学知识,拥有数据建模和可视化能力,具备相关深度学习框架和数据管理工具(如Hadoop和Spark)的经验。数据科学家需要与领域专家合作,将应用要求转化为机器学习的具体任务,以训练所需的人工智能模型。当应用需求发生变化、数据分布出现变化或转移,部署的模型中检测或反馈错误时,数据科学家需要不断重新训练或完善部署人工智能模型。