第3章 数据
人工智能如今处在发展早期的阶段,非常像十几年前互联网的成长。推动AI发展的三个动力是算法、算力和数据(见图3-1)。第一个是算法,人工智能,尤其是机器学习的算法在过去几年迅速发展,不断有各种各样的创新,深度学习、DNN、RNN、CNN到GAN,不停地有新的发明创造出来;第二个是计算能力,计算的成本在不断下降,服务器也变得越来越强大,我们已经在第2章中详细地介绍了人工智能芯片产业;第三个是数据,数据的产生仍然在以一个非常高的速度发展,它会进一步推动算法的不断创新,以及对计算能力提出更新的要求。数据是AI的根本和基础,AI和大数据密不可分。没有海量数据支撑的人工智能就是人工智障。
图3-1 推动AI的动力
数据正在金融、广告、零售、物流、影视等行业悄悄地改变我们的生活。随着手机更大规模的普及,以及日新月异的可穿戴设备、智能家居,甚至是无人驾驶汽车,都在提醒我们,以互联网(或者物联网)、云计算、大数据为代表的这场技术革命正引领人类社会加速进入农业时代、工业时代之后的一个新的发展阶段—数据时代(DT时代)。前两个时代分别以土地、资本为生产要素,而正在我们面前开启的数据时代,正如其名,数据将成为最核心的生产要素。
大数据代表了一种现象,即数据的指数增长超过了人们管理、处理和应用数据的能力的增长。无论是对一个国家还是一个企业,谁能缩小这两个增长之间的差距,把数据用好,就能占有竞争优势。有人说,当“人工智能”和“大数据”的压路机压过来的时候,要么你成为压路机的一部分,要么你成为路的一部分。未来十年,人工智能和大数据是非常重要的一件事情。本轮AI浪潮是数据驱动的,算法就是“炼数术”。因此,AI面临的核心挑战之一依然是数据,尤其是做有监督学习时所需要的高质量训练数据源。本章从AI的角度来阐述大数据。需要指出的是,数据分析不等于大数据分析,简单的统计分析不是大数据分析。大数据是基础,大数据分析挖掘和AI是上端应用。本书中的大数据分析特指基于AI技术(机器学习或深度学习)的海量数据分析。