第二节 大数据的概念内涵
当前,大数据时代刚刚开始,大部分相关技术和分析应用可以说从2010年前后才开始出现的[8]。虽然大数据的发展应用刚刚起步,但大数据的概念最早源于气象、天文等科学计算中对海量数据的分析处理,而真正引起人们广泛关注的则是来自互联网领域的大数据应用。从现代意义上看,大数据可以说是计算机与互联网相结合的产物,前者实现了数据的数字化,后者实现了数据的网络化,两者结合赋予了大数据更加丰富的含义。究竟什么是大数据,由于所从事学科领域的差异,国内外学者对大数据有着不同的看法。从技术层面看,大数据是一个抽象的概念,一些学者从技术的角度出发提出大数据是指无法在可容忍的时间内用传统IT技术和软硬件工具对其进行感知、获取、管理、处理和服务的数据集合[9](见表1-2)。
表1-2 大数据定义及主要观点
除此之外,还有学者从信息资源的角度出发,指出大数据是具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产[10]。尤其是从事社会科学领域的学者认为大数据的概念内涵不应仅局限在技术层面,他们认为大数据可以定义为在合理时间内采集大规模资料、处理成为常住使用者更有效决策的社会过程[11]。
虽然大数据尚未有公认的定义,但并不意味着大家对这个概念没有较为普遍的共识。从以上定义来看,我们认为“大数据”是伴随数据信息的存储、分析等技术进步,而被人们所收集、利用的超出以往数据体量、类型,具有更高价值的数据集合和信息资产。总的来说,从概念内涵来看,大数据不仅仅指海量数据,或者说大规模或超大规模的数据资源集合,其更具有四重概念属性,如图1-1所示。
图1-1 大数据的四重概念内涵
一 大数据是一种新的数据形态
当前,随着移动服务、电子商务、互联网金融、社交网络等新技术应用的飞速发展,越来越多的人类经济社会运行内容被投射到云上,在云端进行统一处理并提供服务。有句形象的说法,以前是“人在做,天在看”,现在则是“人在做,云在算”。在这样一个背景下,人类社会产生的数据无论是规模、类型还是处理速度的要求都面临巨大变化。大数据概念出现的最根本历史因素,是人类进入信息时代以来的全球性数据爆炸性增长。有研究认为,当前互联网上的数据以每年50%左右的速度增长,人类90%以上的数据都是最近几年产生的[12]。同时,随着当前社交网络、移动计算和传感器等新的渠道和技术的不断涌现和应用,互联网中越来越多的信息是不规则的半结构化甚至非结构化数据。大数据计算服务的目的,就是对当前互联网领域占据80%以上的结构化和半结构化数据进行智能分析,并且实时地将计算结果通过网络反馈给终端用户。这是看待大数据的第一个视角,即它是一种呈现数据容量大、增长速度快、数据类别多等特征的数据形态。
大数据是数据信息的一类,之所以称为大数据,因为其具有不同于传统数据信息的特征,这些特征决定了大数据与“海量数据”和“非常大的数据”这些概念之间的不同。关于大数据的特征目前还未形成统一认识,国际数据公司、高德纳公司、弗雷斯特研究公司、国际商业机器公司(IBM)等著名国际组织和企业,以及道格·莱尼、维克托·迈尔等众多研究者认为,大数据的基本特性可以从数据容量(Volume)、结构类型(Variety)及处理速度(Velocity)三个维度来考察,简称“3V”[13]。随着技术的进步,以及对于大数据研究的深入,人们对于大数据特征的认识也发生了一些变化。IBM提出了大数据的5V特点,详细解读如下。
1.Volume(大量)
数据量大,包括采集、存储和计算的量都非常大。大数据的起始计量单位至少是PB、EB或ZB(注:1TB=1024GB、1PB=1024TB、1EB=1024PB、1ZB=1024EB)。伴随各种随身设备、物联网和云计算、云存储等技术的发展,人和物的所有轨迹都可以被记录,数据因此被大量生产出来,这与数据存储和网络技术的发展密切相关。移动互联网的核心网络节点是人,不再是网页,人人成为数据制造者,短信、微博、照片、视频都是其数据产品;数据来自无数自动化传感器、自动记录设施、生产检测、环境检测、交通检测、安防检测等;来自各种自动化流程记录,刷卡机、收款机、电子不停车收费系统、互联网点击、电话拨号等设施以及各种办事流程登记等。大量自动或人工生产的数据通过互联网聚集到特定地点,包括电信运营商、互联网运营商、政府、银行、商场、企业、交通枢纽等,形成大数据之海。
2.Variety(多样)
种类和来源多样化包括结构化、半结构化和非结构化数据,这也意味着要在海量、种类繁多的数据间发现其内在关联。互联网时代,各种设备通过网络连成一个整体。个人用户不仅可以通过网络获取信息,还成为信息的制造者和传播者。因此,数据量不仅在爆炸式增长,数据种类也变得繁多。除了简单的文本分析外,还包括网络日志、音频、视频、图片、传感器数据、点击流、搜索引擎、地理位置信息等其他任何可用的信息。比如,在交通领域,交通智能化分析平台数据来自路网摄像头、公交、轨道交通、出租车以及省际客运等运输工具采集的车辆行驶数据,地理信息系统数据,以及通过问卷调查采集的用户数据等。诸如每天浮动车辆产生的记录、交通卡刷卡记录、手机定位数据、出租车运用数据、电子停车收费系统数据等,在体量和速度上都达到“大且多样”的规模。
3.Value(价值密度)
大数据的价值具有稀缺性、不确定性和多样性,数据价值密度相对较低,但应用价值高,或者说是浪里淘沙却又弥足珍贵,可见大数据运用的真实意义所在。随着互联网以及物联网的广泛应用,信息感知无处不在,如何结合业务逻辑并通过强大的机器算法来挖掘数据价值,是大数据时代最需要解决的问题。“互联网女皇”Mary Meeker曾用一幅生动的图像来描述大数据。一张是整整齐齐的稻草堆,另外一张是稻草中缝衣针的特写,寓意通过大数据技术的帮助,可以在稻草堆中找到你所需要的东西,哪怕是一枚小小的缝衣针,这揭示了大数据的一个很重要的特点,即价值的稀疏性。保留有用信息,舍弃不需要的信息,发现潜在关联的数据并加以收集、分析、加工,使其变为可用的信息,是大数据价值的真正所在。
4.Velocity(高速)
数据增长速度快,处理速度也快,时效性要求高。海量多类型的数据对数据的处理能力提出了更高的要求,现实中对数据的时效性需求上,有一个著名的“1秒定律”,即要在秒级时间范围内给出分析结果,超出这个时间,数据就失去价值了。随着移动网络的发展,人们对数据的时效应用需求更加普遍,比如通过手持终端设备关注天气、交通、物流等信息。搜索引擎要求几分钟前的新闻能够被用户查询到,个性化推荐算法尽可能要求实时完成推荐。高速性要求具有时间敏感性和决策性即能在第一时间抓住重要事件发生的信息,提前感知预测并直接提供服务对象所需要的个性化服务。例如,对绝大多数商品来说,找到顾客“触点”的最佳时机并非在结账以后,而是在顾客还提着篮子逛街时。电子商务网站从点击流、浏览历史和行为(如放入购物车)中实时发现顾客的即时购买意图和兴趣,并据此推送商品,这就是“快”的价值。
5.Veracity(真实性)
数据的准确性和可信赖度,即数据的质量。数据的重要性就在于对决策的支持,数据的规模并不能决定其能否为决策提供帮助,数据的真实性和质量才是获得真知和思路最重要的因素,是制定成功决策最坚实的基础。追求高数据质量是一项重要的大数据要求和挑战,即使最优秀的数据清理方法也无法消除某些数据固有的不可预测性,例如,人的感情和诚实性、天气形势、经济因素等。在处理这些类型的数据时,数据清理无法修正这种不确定性,然而,尽管存在不确定性,数据仍然包含宝贵的信息。随着社交数据和企业内容、交易与应用数据等新数据源的兴起,传统数据源的局限被打破,企业愈发需要有效的技术之力以确保其真实性及安全性。
此外,随着对大数据研究的深入,大数据的特征已不仅仅局限在5V的范畴中,也有一些学者对大数据的特征有着其他的认识[14],具体如表1-3所示。
表1-3 研究者对大数据特性的其他认识
续表
二 大数据是一种新的产业业态(大数据+)
当前,围绕大数据存储、传输、处理、加工、开发和应用各个环节,大数据产业的核心生态和关联业态已经初步形成。据估算,2016年,我国大数据市场规模约为2485亿元,预计年均增速维持在30%以上,到2022年,我国大数据产业规模或达13626亿元以上。大数据应用领域的扩展,激发了“互联网+大数据”的商业新模式,一系列基于大数据的产品应运而生,带动物联网、人工智能、无人驾驶等新兴产业加速发展。如裴艳等基于投入产出模型,对我国大数据产业与国民经济各产业部门之间的投入、产出关系进行分析,发现我国大数据产业的带动力系数为1.4150,推动力系数为1.2003,属于第一类部门。其特点为需求拉动力大、供给推动力大,即属于强辐射力、强制约力的产业[15]。
习近平总书记指出:“研究表明,全球95%的工商业同互联网密切相关,世界经济正在向数字化转型,我们要在数字经济和新工业革命领域加强合作,共同打造新技术、新产业、新模式、新产品。”大数据技术兼具“使能性技术”(Enabling Technologies)和“通用目的技术”(General Purpose Technologies, GPTs)的优点。一方面,大数据技术能够改进和提升既存技术能力,为使用者架设“使然技术”与“应然技术”之间的桥梁,大大提高创新效率;另一方面,大数据技术能够满足各行各业的共性需要,对于国民经济各部门具有十分广泛的辐射带动效应,有助于提升全要素生产率。根据交易成本经济学理论,交易成本源于人的有限理性和机会主义行为。显然,大数据有助于扩展人的理性,减少人的机会主义行为,从而有利于降低交易成本。而从交易成本视角而言,大数据技术是一种具有降低交易成本的技术进步[16]。根据美国联邦储备委员会的研究结果,2004~2012年美国劳动生产率的增长中,数字化技术的贡献度达到43%,接近其他所有技术对生产率增长的贡献之和。正因如此,全球各国在推动数字经济发展时,其着眼点已经远远超出数字化产业本身,而是关注于大数据、云计算等数字技术与实体经济的融合部分,关注数字化技术对于传统行业转型升级的带动辐射作用,全力推动经济模式向形态更高级、结构更合理的方向演进。
三 大数据是一种新的治理模式(大数据×)
当前,全球信息技术革命持续演进,电子政务发展所依托的信息技术手段正面临重大飞跃,以云计算、大数据、物联网和移动互联网等为代表的新一轮信息技术变革浪潮风起云涌,不仅对产业发展、商业模式、媒体传播、金融服务等领域产生强烈冲击,同时也深刻改变了信息化发展的技术环境及条件,为政府治理、公共服务、社会管理和商业运行提供了更为强有力的科技支撑。
在公共服务方面,全球电子政务领先国家开始普遍开展政府网站用户行为大数据分析与挖掘工作。如美国、英国、澳大利亚、加拿大、日本、韩国、新加坡等数十个发达国家政府门户网站和联合国门户网站均已部署了基于云服务模式的网站用户行为分析系统。通过对海量网站用户访问行为数据的分析和挖掘,提炼用户需求,指导政府提供更加个性化的网上服务,并通过对用户访问规律和点击行为的动态监测,有针对性地改进政府网上服务,精准推送服务内容,使在线服务越来越向智慧化、精准化、主动化的方向发展。
在社会管理方面,国外一些政府部门(如医疗、交通、公安等)已经注重挖掘本部门所掌握的数据价值,更有效地提高部门业务运作效率,提升公众满意度。例如,美国疾病预防控制中心(CDC)利用从多处收集的海量数据,开发了复杂的流感跟踪系统,及时了解疫情变化,并基于流感跟踪系统,建立了专门网站(FluView),每周将数据向公众开放,方便公众查询当地的流感情况。再如,美国警察部门正在兴起一项新的应用——警务预测(Predictive Policing),即基于大数据分析预测一个城市哪个地区最可能发生犯罪事件以及哪里最有可能找到犯罪分子。此外,应用大数据实现精细化的交通治理逐渐成为一种趋势,包括利用大数据分析处理交通拥堵、监测恶劣天气的道路状况、检测道路损毁状况等。
在政府治理创新方面,以大数据、人工智能等为代表的数字经济蓬勃发展,对政府治理方式提出了一系列全新挑战,各国均在积极寻求适应数字经济时代的政府治理模式创新路径。如针对以大数据、云计算、区块链、人工智能等为代表的FinTech(金融科技)带来的监管挑战,英国金融行为监管局提出发展RegTech(监管科技),力求依靠科技手段满足实时、动态监管需求,逐步解决金融监管信息不对称问题,缓解法律滞后等弊端。再如美国密歇根州早在2002年就建成了世界上第一个网络法院,主要聚焦处理信息技术和新经济领域的纠纷,有效解决目前传统法院审理周期漫长与新经济领域短周期经济活动之间的矛盾。英国学者海伦·马吉茨(Helen Margetts)指出,全球政府治理在经历了传统的韦伯模式和新公共管理(NPM)模式后,正在进入第三个阶段,即数字治理(DEG)模式,其基本特征就是将数字化技术置于机构层级的核心位置,以公民权为轴心,推动数字化的整体性政府建设。
在商业治理领域,当前大数据已经成为商业智能的代名词,基于大数据的分析和挖掘技术,商业智能已经从过去的报告和决策支持模式跃升到商业预测和未来决策制定(Next-move Decision Making)的模式[17]。另外,大数据通过对企业不同价值链条的动态整合,已形成一种全新的网状、弹性、自组织的业务流程管理格局,还将引发一场“战略性的、企业级的、贯穿整个价值链的深度变革”[18]。
四 大数据是一种新的思维理念(大数据!)
大数据的第四层内涵,是在推动产业发展和治理创新的基础上,进一步在认知层面完成对人类社会群体的思维模式改造,发挥大数据融入经济社会发展方方面面的阶乘效应。长期以来,中国社会文化一直缺乏精确的数据意识,中国人的传统习惯是定性思维而不是定量思维,正如胡适先生所说的“差不多”文化,这种文化阻碍了科技在中国的发展,没有精确就没有现代科技。数据文化的本质就是尊重客观世界的实事求是精神,数据就是定量化的、表征精确的事实,重视数据就是强调用事实说话,遵循理性思维的科学精神,因此提升全社会的数据意识、强化数据精神是大数据热的巨大贡献。
著名历史学家黄仁宇先生曾指出[19],西方人在研究社会经济史时,喜欢使用计量经济学的方法,其实西方其他社会科学在做研究时都有数字化的倾向,用数据来说明问题。比如新制度经济学的福格尔研究美国铁路对美国经济的推动作用时得出其贡献仅为3%,这个数据的得出需要那个时代的各种相关要素的统计资料。要做这样的研究,其前提是必须有某一时期相关因素的准确的统计资料。黄仁宇认为,古代中国与西方的城邦制社会不同,在大一统的政治环境下,中央政府的各种决策往往以道德准则而不是实际情况为出发点,甚至以仪式来代替行政,各种相关数据要么没有统计,要么就是严重失实,无法做到“数目字管理”,这就是中国数字文化长期缺失的重要原因。
大数据的核心,实际上并不是技术和应用本身,而是对于数据背后的规律、原理、本质的解读、研判和决策。数据本身是中立的,数据并不会告诉我们一件事是好还是坏。数据分析的最终导向,是人的价值判断。我们在推动大数据发展和开展公共政策大数据评估研究的过程中,不能仅仅考虑技术和产业层面的问题,还应当注意塑造民族在数据文化时代的“魂”。因此,打造正确的大数据价值观和文化观,正如以色列历史学家尤瓦尔·郝拉利在其最新出版的《今日简史》中[20]所指出的:“大数据算法可能会抹去自由,同时也就可能创造出历史上最不平等的社会,让所有的财富和权力集中在一小群精英手中。大多数人类的痛苦将不再是受到剥削,而是更糟的局面:再也无足轻重。”
笔者认为,大数据文化观的塑造应当坚持三个基本原则。一是“解放心灵”。印度学者克里希那穆提曾写过一本书,叫作《教育就是解放心灵》。大数据文化的本质不应当是让大家觉得很紧张,让大家都为了一个分数去拼命,而应该是要大家获得一种精神上的自由,学会解放自己的心灵。二是“完善人格”。这是在中国古代经典中一以贯之的精神。《论语·宪问》中就提出了“修己以敬”“修己以安人”“修己以安百姓”这样三种完善人格的境界,其核心思想,则是通过解放心灵来完善人格,最终达到修齐治平的目的。三是“提升生命质量”。大数据文化的最终目标,是提高每个人的生命质量,大数据不应当让每一个人感觉被绑定、越来越紧张、越来越僵化,而应通过分析,让每一个人觉得更轻松、更自由、人格更完善,让每个人生命质量有一个真正的提高。