1.1 信息技术革命下的互联网上半场
1.1.1 信息技术革命与互联网崛起
五次信息技术革命
提到信息技术革命,很多人会觉得这是从20世纪电报、电话等通信技术发明开始的,也会有人认为信息技术革命是从互联网出现而兴起的。诚然,这些发明创造推动了信息技术大跨步地发展,让我们今天可以随时随地与他人自由地联系、与万物互联,但是广义上的信息技术革命从远古时期语言的出现就已经开启,至今已历经了5次。
从定义来看,“信息技术革命”是指人类社会中信息的存在形式、传递方式以及人类处理和利用信息的形式所发生的革命性变化[1]。人类诞生至今,对于信息的传递、处理等方式也经历了多次变革,从最早语言的出现,到今天互联网的普及,每一次变革都使人类文明向前跨越一大步,极大地改变其所处时期的生产关系以及社会经济结构。
根据进化论,人类在200多万年前从猿进化为早期人类——“能人”,此时的能人相较于猿以及其他动物,根本性的区别是能人能够制造工具用于生活、打猎等日常活动,并由此开启了石器时代。但能人并没有基本的语言,他们彼此的交流更接近于动物行为。经过数十万年的演变,直立人出现,并最终取代能人。直立人懂得用火,并开始使用符号和基本的语言进行交流,自此原始语言开始出现,人类信息的处理方式发生了第一次质的改变。语言的出现也使原始人类得以通过这一更加有效的沟通方式维系族群和部落成员之间的关系,并能够使小型群体向大型的社会化组织演进,提高自身生存能力,在繁衍生息的生物进化历程中占据优势。
在约5000年以前,人类处理信息的方式开始发生第二次革命性改变,这个变化的标志就是文字的出现。最初的文字是通过模仿的方式用简略的“画”对事物进行符号化的表达。中国古代的象形文字、古埃及的象形文字以及美索不达米亚的楔形文字均采用这种方式。在传播和演进过程中,西方文字逐渐符号化,从象形文字转变为更为简单、易书写的字母式符号。我国的文字则一直沿着象形文字的道路演进,从甲骨文、金文、小篆、隶书一直到简体中文,整个演进过程也基本是遵循简单、易书写的标准,但一直保留着“象形、指事、形声、会意、转注、假借”这6种文字组成方式,从而使中华文明历经数千年的洗礼,还能够保留和传承至今。文字的创造,将人类带入了有确切记载的新纪元,推动了人类社会文明和科学技术的大发展,这是其他任何媒介都无法做到的。
前两次信息技术革命是整个人类社会发展的结晶,而第三次革命则基本上由我国古代的科技进步而推动。首先是纸的发明,早在西汉时期(公元前206年至公元8年),我国就已经出现了麻质纤维纸,但是这种纸质地粗糙,且成本较高,不利于推广普及。东汉时期,宦官蔡伦和他的技工对麻纸进行了改造,并于元兴元年(公元105年)研制出新的纸张,被后人称为蔡侯纸。蔡伦的改造形成了新的造纸方法,促进了造纸技术的飞跃,最终流传至世界各地。又过了大约1000年,北宋毕昇发明了活字印刷术,大大提升了印刷的速度和质量,成为古代印刷术的重大突破,在信息大规模生产、复制、交流、传播等方便性上发挥了革命性的作用,极大地推动了人类文明的发展和进步。
时间再往近代推进800年,世界在电报、电话的发明中开启了第四次信息技术革命。1837年,美国人萨缪尔·摩尔斯(Samuel Morse)、英国人查尔斯·惠斯通(Charles Wheatstone)和威廉·库克(William Cooke)几乎同时发明了电报,人类第一次实现即时远距离通信。1876年,美国人亚历山大·贝尔(Alexander Bell)获得了世界上第一台可用的电话机的专利权,并创建了贝尔电话公司,电话开始正式进入千家万户,让处于不同地区的人们可以随时无延迟地利用电话进行沟通交流。50年后,同样在美国,美籍俄罗斯人维拉蒂米尔·斯福罗金(Vladimir Zworykin)制造出比较成熟的光电摄像管和显像管,形成了全电子电视系统,进而推动了广播电视技术在全球的发展和应用。以上几位发明家通过电报、电话、电视的发明使人类的通信手段得到了巨大的提升,信息传递的速度发生了革命性的变化,将人类推向了第四次信息技术革命的浪潮。
第四次信息技术革命提升了人类对电子技术的研究速度和研究能力,同时也极大地缩短了信息技术革命的间隔周期。在电视系统发明的20年后,标志着第五次信息技术革命的电子数字计算机在美国宣告诞生,人类正式进入了计算机时代。这台计算机的全称是Electronic Numerical Integrator And Computer,即电子数字积分计算机,于1946年2月14日在美国宣告诞生。该计算机本是美国为了加快新型大炮和导弹的研发,用于第二次世界大战而研制的,最终却推动了人类在信息技术领域的长足发展。第一台计算机问世之后,人们研制出了越来越多的高性能计算机,并在20世纪70年代推出个人微型电脑,逐渐让计算机进入千家万户,成为人们处理工作和日常生活不可或缺的工具。
互联网的诞生和发展
五次信息技术革命既有人类自身的进化,又有对于工具的创造,无论哪种形式的升级,都对当时社会的发展和生产关系起到了革命性的推动作用。特别是第二次世界大战后,第五次信息技术革命中半导体、集成电路、计算机的出现,将信息技术的应用推向了新的高度,也为互联网的普及和爆发奠定了物理基础。
互联网(Internet)是计算机交互网络的简称,其前身是美国国防部高级研究计划署(Defence Advanced Research Projects Agency)开发的ARPAnet。1969年11月,位于加州大学洛杉矶分校、圣芭芭拉分校、斯坦福大学、犹他州大学的四台大型计算机作为节点进行了联网,开始通过简单的ARPAnet网络进行资源共享,从而奠定了互联网未来发展的基础。
随着接入ARPAnet的计算机数量逐渐增多,1975年ARPAnet正式结束了网络试验,研究人员也开始了用于异构网络的TCP/IP(传输控制协议/因特网互联协议)的设计工作,并在1983年将ARPAnet所有主机全部转向TCP/IP。与此同时,美国国防部将ARPAnet拆分为两个独立网络,一部分保留ARPAnet的名称,继续用于研究用途,另一部分被称为MILNET,用于军事。此阶段的网络多为连接少数主机的局域网,并没有形成统一的广域互联网。1986年,美国国家科学基金会(National Science Foundation,NSF)利用ARPAnet发展出来的IP通信,建立了按区域划分的NSFnet广域网,并将区域网络和超级计算机中心互相连接在一起,同时吸引其他大学、研究机构将自身的局域网接入NSFnet,从而快速壮大NSFnet网络的规模,并最终在1990年替代ARPAnet,成为Internet的主干网。在NSFnet发展的同时,其他国家和地区,以及大量科研院所也在积极地建立自己的广域网,并不断地与NSFnet进行连接。1991年,接入Internet的商业用户数量第一次超过了科研用户数量,Internet迎来了发展历程上的一次重要里程碑,并自此进入高速发展期。在中国,中国科学技术网(CSTnet)于1994年首次实现和Internet的直连,标志着我国正式接入Internet。
随着全球经济的发展,世界各地的通信基础设施越来越完善,Internet逐渐从科研机构、政府部门走向普通家庭,让全球千千万万的用户实现了上网冲浪。We Are Social和Hootsuite发布的报告显示,截至2019年4月初,全球互联网用户已达到44.37亿人,占全球总人口的57.64%,并且依然保持较高的增长速度。相信在不远的将来,互联网将真正实现全人类的无缝覆盖,进一步改变和促进社会和经济的发展。
1.1.2 互联网引发数据爆炸
2019年10月29日是世界互联网诞生50周年纪念日。半个世纪前的人们,不会想到世界会如今天这般紧密相连。追踪互联网的诞生因素,首要的驱动力就是人类传播与交流的内在需求。
1969年10月29日,一条携带有“L”和“O”两个字母的数据传输信息在两台计算机之间发送成功,这是世界上第一次互联网络的通信实验。传送信息的完整版原本为“login”(登录),但是第二个字母发送后系统就崩溃了。不过,尽管只传送了两个字母,这一重大事件仍然成了人类文明进程中一个重要的里程碑。它的发送为互联网世界推开了一扇崭新的大门,之后才陆续出现了邮件、私信、网页、社交媒体等所有基于网络传输的交易与交流,我们也因此迎来了前所未有的大数据时代。
在互联网发展的前30年中,数据爆发的趋势其实并不十分明显,这一时期的互联网主要是由技术驱动发展,应用范围也大多局限在学术圈。从20世纪90年代开始,商业化的变革才真正将互联网推入了飞速发展阶段,数据大爆炸的趋势也在此埋下了伏笔。1990年,第一个商业性质的互联网拨号服务供应商诞生;1991年,世界上第一个网页被创建,正如第一封邮件解释什么是电子邮件一样,第一个网页同样解释什么是“万维网”,它的发明为人类带来了一种新的信息共享方式,深深改变了人类的生活面貌,发明人蒂姆·伯纳斯·李(Tim Berners-Lee)也因此被称为“互联网之父”;1993年,互联网历史上第一个获普遍使用并能显示图片的网页浏览器Mosaic发布,它的出现在当时引起了极大反响,受到了极大欢迎,算是点燃了后期互联网热潮的火种之一;1994年,Mosaic浏览器开发的核心人物马克·安德森(Marc Andreessen)和吉姆·克拉克(Jim Clark)创立了“Mosaic Communications Corp”公司,中译名为“网景”。同年,网景开发的浏览器 Mosaic Netscape 0.9发布之后迅速成为当时最热门的浏览器。1995年8月9日,网景首次公开募股即获巨大成功,第一天收市,股价升至每股75美元,收盘价为每股56美元。这是美国资本市场上第一家互联网公司,《华尔街日报》评论说,通用电气花了43年才使市值达到27亿美元,而网景只花了1分钟。
以网景上市为起点,互联网商业化热潮正式拉开了大幕。此后5年间,亚马逊、雅虎、eBay、谷歌、腾讯、阿里巴巴、百度……这些世界主要互联网巨头先后诞生,使人类流传几千年的生活方式发生了天翻地覆的变化——人们足不出户就能获得自己想要的信息以及购买的商品。在此情况下,使用互联网的人越来越多,使用时间也越来越长。仅中国网民就从1997年10月的62万人激增至2018年12月的8.29亿人,[2]居世界第一位。在庞大的市场消费需求驱动下,互联网迎来了黄金发展时期,也就是消费互联网时代。与之相应的,由网民激增带来的越来越庞大的数据,也引起了越来越多的关注。
在更早以前,人们对于数据的认识大都停留在数字层面,但互联网的诞生和流行让人们意识到数据不仅是数字或文字,它还包括字母、符号、图片、视频、音频等一切用于表示客观事物的未加工的原始素材。只要用户登录互联网就会产生数据,既包括网页地址、点击时间等浏览数据,也包括所有搜索、交易、运营等数据。用户在网上一个简单的购买行为就会产生诸如购买商品或服务的名称、支付金额、个人信息、商品服务明细、购买时间等多个数据,并且随着移动互联网的诞生,个人使用互联网越来越方便,产生的数据也越来越多,开始呈现爆炸的趋势。《大数据》《数据之巅》及《数文明》三部曲的作者——中国信息管理专家涂子沛说道:“个人数据的爆炸,是大数据作为现象级事实出现最早也最为重要的原因。”[3]
在互联网迅速发展的黄金时代,各行各业每天都在产生大量的数据,数据爆发式增长的速度已经超过了人们的想象。为了弄清人们周围到底有多少数据,不同机构和个人都做出了尝试。南加利福尼亚大学马丁·希尔伯特(Martin Hilbert)教授研究估算,2007年,人类存储了超过300EB的数据,其中只有7%是存储在报纸、书籍、图片等媒介上的模拟数据。有意思的是,在2000年,数字存储的信息还只占全球数据量的1/4。[4]仅仅不到7年的时间,互联网上承载的数字数据就已充斥在人们的生产与生活之中,这种有别于以往几千年来人们对于“数据”认识的变革,渐渐引出一个新的概念“大数据”。
尽管大众对“大数据”概念的认识也就在近10年,但其实早在1980年,著名未来学家阿尔文·托夫勒(Alvin Toffler)就在其所著的《第三次浪潮》中将“大数据”称为“第三次浪潮的华彩乐章”,这也被认为是大数据概念第一次出现在公众的视野中。不过,与互联网前30年的发展类似,直到2011年之前,“大数据”的认识与流行也只存在于少部分学术圈中。2011年6月,全球知名咨询公司麦肯锡发布的一份研究报告真正将“大数据”带到了大众视野。麦肯锡在《海量数据,创新、竞争和提高生产率的下一个新领域》研究报告中不仅指出“数据,已经渗透当今每一个行业和业务职能领域,成为重要的生产因素”,同时还对“大数据”的影响、关键技术和应用领域等都进行了详尽的分析,也因此得到了金融界的高度重视,并使“大数据”逐渐受到了各行各业的关注。
2012年开始,“大数据”频繁出现在人们的视野中。《纽约时报》2012年2月的一篇专栏称,大数据时代已经降临,在商业、经济及其他领域中,决策将日益基于数据和分析而做出,并非基于经验和直觉。在这场由互联网引发的数据爆炸中,人们对于数据的价值终于有了一个全新的认识。
1.1.3 重新认识数据价值
数据在我们日常生活中无处不在,我们会经常用到数字,用纸笔记录信息,用计算机处理工作,这些过程都在时时产生数据。数据的含义很广,根据“汉典”网站对数据的定义,在汉语词语的环境下,数据就是数值,是我们通过观察、实验或计算得出的结果。数据有很多种,最简单的就是数字。数据也可以是文字、图像、声音等。而作为计算机术语,数据(data)则是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的原始素材。在计算机系统中,数据以二进制信息单元“0,1”的形式表示。[5]
从数据的定义可以看出,无论是作为汉语词语还是计算机术语,数据其实都是一种对于信息的记载,包括数字、文字、图像、声音、信号、字节等。因此,数据是在人类生活、学习、工作等各种日常行为中不断产生的,其规模也随着人类活动的丰富而逐渐扩大。可以想象在远古时期,人类刚刚发明文字,将重要信息记录在龟壳上、铜器上,所产生的数据信息是少量、有限且单一的。在文字被记录到竹简、纸张上之后,由于书写和携带便利,极大地提升了文字的记录内容和受众范围,促进了信息的快速和广泛传播,从而推动了数据规模的增长。
随着信息技术革命的演进,每一次的变革都在本质上改变了信息的记录和传播方式,数据规模也在每一次的变革中呈现指数级增长。特别是伴随着第五次信息技术革命中计算机、互联网的出现和普及,人类产生的数据量迎来了大爆炸,大约每两年就能翻一番,致使最近两年产生的数据量相当于之前产生的数据量之和。英特尔预测,全球数据总量在2020年将达到44ZB,[6]而中国产生的数据量将达到8ZB,占全球数据总量的18%。在大数据技术出现之前,我们对数据的应用并没有发挥最大效用。与此同时,数据量级的增长也并非越快越好,因为数据量快速增长,对应的就会出现很多没有价值或者价值没有被挖掘的数据,如果不及时通过有效的技术手段对这类大规模数据进行转化,那么就是对资源的一种浪费。
由于数据的本质是对信息的记载和反映,通过对数据进行挖掘、清洗、分析,可以获得其对应承载信息的深层次价值。如同人类对于石油的利用,只有通过开采、提炼、加工等环节生产出汽油、柴油以及各类产品,才能最大化地发挥石油的作用。因此,可以说数据是新的石油,大数据和人工智能等技术的创新,能够让人们更容易地对数据进行深度的挖掘,让人们重新认识到数据的真正价值。
例如,在广告营销行业,采用原有的传统广告投放方式,企业投入了真金白银,但是由于缺乏对广告监测的手段,因此很难有效地评估广告投放效果以及客户转化效率。如今,我们可以通过大数据技术,对广告投放进行精准监测,从投放、获客、识客、转化、培育等方面进行全流程数据监测跟踪,精确还原用户购买行为,有效分析广告投放在客户获取过程中的作用和价值,从而让企业清清楚楚地了解自身广告投放的准确度,适时调整营销策略,实现降本增效。企业通过对数据的挖掘与分析,在“杂乱无章”的原始沉淀数据中寻找规律,使单纯的数据变为具有价值的数据资产,这个数据价值化的过程是大数据技术的重要贡献。大数据让更多的数据真正地被利用起来,应用到各个行业的数字化转型当中,帮助企业更加科学合理地进行决策。
除了大数据技术对数据价值的挖掘和分析之外,影响数据价值的因素还有很多,如数据自身的属性、数据的结构化程度等。通常,在信息化系统中产生和存储的数据,如企业ERP、财务系统、医疗HIS数据库等系统中的各类数据,由于具有结构化特征,更易被分析和应用。而一些非结构化的数据,由于分析和应用的难度大,包含的数据价值密度相对较低,数据价值容易被低估。在现今的信息化社会中,视频、音频、图像、文本等形式的非结构化数据规模增长更快速,占整体数据规模的约80%。大数据叠加人工智能技术,能够更好更快地对非结构化数据进行解构,对其背后的价值进行深挖,从而大幅提升这类数据的价值。例如,在司法领域,通过自然语言处理、文本解析、机器学习等技术,利用文本标注平台、解析平台、算法模型,深度挖掘并准确提取法律文本中的各类信息,可以显著提高文本中非结构化数据的处理效率,提升文本挖掘价值。
随着大数据应用场景的逐渐增多,结构化数据和非结构化数据都能够更好地被开发并应用于人们的日常生活中,为企业、政府以及个人提供实实在在的便利,也让人们看到了数据所带来的巨大能量。在2019年10月召开的十九届四中全会相关决议中,明确“健全劳动、资本、土地、知识、技术、管理、数据等生产要素由市场评价贡献、按贡献决定报酬的机制”,第一次将数据定义为生产要素,并按照市场化机制分享报酬。把数据纳入生产要素,充分体现了国家对于数据价值的肯定,反映了数字经济正成为国家经济发展极为重要的支柱。数据正在成为数字经济时代最重要的战略性资产。