人工智能数据素养
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第1章 人工智能下的大数据时代

1.1 大数据时代和人工智能

1.1.1 一切皆为数据

当你被闹钟叫醒起床时,当你乘坐公交车刷卡时,当你悠闲地在美术馆欣赏世界名画时,当你在音乐厅闭目聆听优雅的乐曲时,当你拿起手机发布一条微博时,当你使用智能手环查看跑步记录时,当你在超市购物时,当你学习或工作了一天后坐在沙发上看着电视时……

在以上场景中,你都在接收和发送数据。在现实生活中,人们无时无刻不被数据包围着。互联网的发展催生了图像、视频、社交信息等大量数据,而数据规模的不断扩大,也带来了存储、分析、搜索、共享、传输、可视化、查询、更新、信息隐私等诸多问题。

与以往的数据相比,如今的大数据呈现出以下8个主要特性,如图1-1所示。

图1-1 大数据特性图(从3V到8V)

● 大体量(Volume):人们每时每刻都在上传数据,随着万物互联的时代到来,机械设备、智能家居、智慧城市等也产生了大量数据,数据量呈指数级增长。

● 多样性(Variety):数据中包含大量的文本、图像、音频、视频,以及路由数据、日志文件等,数据的种类丰富多样。

● 高速度(Velocity):数据创建、存储、分析的速度越来越快,频次也越来越高,由过去的静态逐步发展转变为现在的实时动态发展。

● 高价值(Value):大数据的价值很高,是几乎所有企业都想挖掘的“金矿”。

● 准确性(Veracity):现在,许多数据都由传感器采集,避免了人为或其他原因导致的错误数据,所收集到的数据的准确性大大提升。

● 动态性(Vitality):数据是动态的,每天都在变化。

● 可视化(Visualization):对大数据进行分析后,将其以更易于理解的图像方式呈现。

● 合法化(Validity):强调数据采集与应用的合法性,特别是对个人隐私数据的合理使用。

数据在人们的生活、工作、学习,以及社会的发展中变得越发重要。2017年12月8日,中共中央总书记习近平在中共中央政治局第二次集体学习时指出,要构建以数据为关键要素的数字经济。2020年4月,《中共中央 国务院关于构建更加完善的要素市场化配置体制机制的意见》对外公布,数据作为一种新型生产要素写入文件中,与土地、劳动力、资本、技术等传统要素并列为要素之一。

1.1.2 数据高速增长时代

自2003年起,中国数字经济的增长速度远快于GDP的增长速度。自2011年以来,数字经济的增长与GDP增速呈现拉大趋势。根据中国信息通信研究院发布的《中国数字经济发展白皮书(2020年)》,2019年,中国数字经济名义增长15.6%,高于同期GDP名义增速约7.85个百分点。随着数字技术创新与传统产业的快速融合与渗透,数字经济对经济增长的影响将越发明显。如图1-2所示为2014—2019年中国数字经济增加值规模及占GDP比重,可以看出,数字经济增加值规模呈现出持续增长态势。

互联网数据中心(IDC)的调查报告显示,2018—2025年全球数据圈将增长5倍以上,2018年全球数据圈为33ZB,根据现有发展趋势,预测2025年将增至175ZB[1]。其中,中国数据圈增速最为迅速,平均每年的增长速度比全球快3%,预计中国数据圈将从2018年的7.6ZB增至2025年的48.6ZB。

图1-2 2014—2019年中国数字经济增加值规模(亿元)及占GDP比重

数据来源:中国信息通信研究院。

如此庞大的数据总量和数据增量给深度神经网络的发展及商业落地提供了土壤。近几年,突破性算法出现的次数略有下降,短时间内仍然看不到颠覆性创新理论出现的苗头,因此,人工智能对大数据的依赖这一现实条件在未来的较长一段时间内不会发生改变。

1.1.3 利用人工智能掘金大数据

人类从过往的知识经验中学习,人工智能则从过往的数据中学习。如图1-3所示为学生学习与人工智能学习的不同循环过程。

在图1-3(a)中,学生通过听课学习知识,通过练习尝试运用,通过模拟考试强化理解,最终通过考试检测知识的掌握情况,循环往复、不断迭代,最终学识越来越渊博。

在图1-3(b)中,人工智能利用数据进行学习。通过对数据进行获取及处理,建立模型,并且通过训练、验证及测试进行迭代。随着数据的不断增多,模型所能给出的结果也会更加精准。

图1-3 学生学习与人工智能学习的不同循环过程

通常,人工智能的相关算法将分析数据、洞察规律的过程分为如下8个部分。

● 定义目标。

● 提出规则。

● 获取数据。

● 构建特征。

● 建立模型。

● 模型训练。

● 测试模型。

● 成功部署。

前4个部分需要由专业人士参与完成,后4个部分则交由人工智能通过不断优化训练完成。

面对以指数级增长的数据,使用人工智能进行分析尤为必要。海量信息来袭,人们很难像过去那样全面关注全部的内容,并且在分析过程中,很多企业的大数据已变成暗数据(Dark Data)。人工智能的自动学习过程则可以在不改动算法的情况下,实现机器学习的进化。因此,大数据需要通过人工智能算法实现其价值,人工智能模型也需要通过大数据不断学习和完善。