1.1.2 互联网为数据存储方式带来的改变
互联网革命带来的改变可以说是天翻地覆的,人们的生活因为互联网的发展变得越来越便捷。当我们回首互联网的发展时,会发现所谓的互联网创业似乎很简单,无非就是将现实生活中的场景搬到了互联网上。而互联网科技的发展,从本质上来讲就是数据存储和检索的发展。前一句话不难理解,那么如何准确理解后一句话呢?
人们在互联网上聊天、看电影、听音乐、浏览网页或者办公等,其实都是一个输入和输出的过程,即数据存储和检索。你找到一个视频网站是为了想要找到自己喜欢的视频,这就是检索。而检索的前提是,其他用户或者网站所有者已经将这些视频存储在了互联网服务器上。
如今,我们可以在互联网上看到越来越高清的视频,越来越精致的内容,其底层原因是互联网在数据存储方面取得了一系列重大突破,互联网服务器能够承载越来越高质量、大容量的内容。而用户在检索这些内容的过程中,也因为各大互联网企业在检索方面的不断优化,能够享受越来越便捷、快速的检索服务。比如,利用百度或者谷歌的搜索引擎,你在搜索一个东西的时候,还没有将整个句子打完,只是打了开头几个字,网站就自动联想到了相关内容。随着大数据的发展,当你在浏览某个物品的时候,网站还能够自动联想你可能喜欢的类似物品并向你推送。需要额外补充一点,一个网站页面分为前端和后端,后端就是数据的调用,而前端就是通过效果渲染展示被调用的数据,在用户的感官上呈现舒适感。
从本质上来讲,当前互联网的发展就是为了更好地存储数据,让用户能够更快捷、高效地检索数据。但是需要强调的是,如果没有数据存储在互联网上,即使再高明、友好的检索方式也会黯然失色,正如古话所说:巧妇难为无米之炊。所以本书的重点,就是数据存储。
数据从现实生活中被搬到互联网上,经历过一个漫长的过程,其中最主要的因素之一就在于存储载体。与早期人们通过绳子、竹简、石板及纸张等记录信息一样,互联网上的信息也有存储载体,如软盘、硬盘、U盘等。至于为什么互联网上的所有信息都称为数据,主要是因为绝大部分信息都是以数字形式存在的(“0”和“1”)。
世界上第一台通用计算机ENIAC于1946年2月14日在美国宾夕法尼亚大学诞生,相信很多上过计算机课的同学都看过那个庞然大物的图片。ENIAC每秒可进行5000次运算,主要被美国用于弹道计算。因为当时的计算机还不具备数据存储的能力,所以其主要用于军事和科研上的计算。如果再往前追溯,那就要提到计算机之父艾伦·图灵了。计算机领域没有诺贝尔奖,但是图灵奖被视为计算机领域的诺贝尔奖,这足以证明图灵对计算机领域乃至人类的贡献之大。
在第二次世界大战期间,德国设计了一种名为Enigma的编码机器。Enigma密码机体型很小,但是功能极其强大。其上有3个轮子,每个轮子都对应着26个字母键,这就可以产生17576种可能。并且3个轮子的顺序和字母的顺序可以进行不同排列,经过层层加密产生的加密方案可以达到惊人的1亿亿种。
但在操作上,Enigma密码机并不复杂。德军指挥部门将情报通过Enigma密码机加密之后再传输给执行部门,即使情报被盟军截获,其也很难发现其中的规律。
《孙子兵法》有云:“知彼知己,百战不殆。”英军同样知道情报的重要性,为了能够在战场上及时知晓德军的动态,英国在伦敦北边一百千米的布莱克利公园建立了破译机构,聚集了一大批优秀的数学家、密码学家和象棋大师,专门负责破译截获的Enigma密码。这其中就包括图灵和后来在爱丁堡大学较早创立人工智能系统的唐纳德·米基。
解密密码最有效的方式其实就是我们熟知的“暴力破解”,即将所有的可能全部罗列出来,将密文还原成可读的、有意义的文字。但是通过人工的方式破解1亿亿种可能性,等到揭开了密码估计战争都结束了。在战场上,时间就是生命。能打败机器的,只有更强大的机器。Enigma密码机有3个轮子,而图灵的Bombe解密机(“炸弹”解密机)有上百个轮子。
虽然Enigma密码机可以产生数种可能性,但本质是调整字母的顺序。只要按照逻辑和方法,再加上强大的“炸弹”解密机,原本不可能破译的密文,就被转变成了极具时效性的情报。这对于整个战场局势的影响不亚于原子弹,甚至有人说图灵的“炸弹”解密机让“二战”提前结束,挽救了上千万人的生命。
计算机的发明是为了在短时间内完成人类无法完成的运算量,“计算机”这一词也一直延续到了今天。
1956年,“蓝色巨人”IBM制造了第一款硬盘,包含50张约60厘米的盘面,它的体积很大,但容量还不到5MB,读写速度也仅为1.1KB/s。如今,5MB大小的容量估计只能存储一张图片,但在当时这绝对是一个划时代的革新。通过硬盘,计算机可以植入系统程序、存储数据信息了。
为了让计算机能够发挥更大的作用,1969年美国国防部高级研究计划署(ARPA)和BBN公司签订合同,研制适合计算机通信的网络,即“阿帕网”(APRANET)。美军在阿帕网制定的协定下将美国西南部的大学(包括加利福尼亚大学洛杉矶分校、斯坦福大学研究学院、加利福尼亚大学、犹他大学)的4台主要计算机相连,这也就形成了早期的互联网。
在接下来的几年时间里,陆续有其他大学、国家机构及大型企业加入进来。到了20世纪70年代,阿帕网已经接入了100多台计算机。研究人员基于已有的网络连接的经验进行总结,重点解决了网络互连的问题。在这个阶段,用于异构网络的TCP/IP通用协议诞生并沿用至今。
既然计算机与计算机之间已经实现了互联,那么也就意味着计算机已经具备了浏览信息和传输信息的基础。不过这在很大程度上取决于计算机服务器上能够存储怎样的内容,毕竟那款1956年的硬盘只能存储5MB的内容,人们最多只能浏览一些文字信息。至于后面逐渐出现的门户网站、社交论坛、浏览器和搜索引擎等,都是基于计算机存储设备的不断发展。
到了1980年,IBM已经推出了总容量超过2.5GB的硬盘,至少能够存储一部质量一般的电影了。但是依然要强调的是,我们不能以今天的眼光来评判当时的技术。一个汉字只占2个字节,2.5GB的硬盘可以存储13亿个汉字,不算插图的话可以存储8000多本书了。只需要几个硬盘,就能够把整个图书馆的文字放进去。并且,硬盘的体积在不断下降,读写速度也在不断提高,直到发展成我们现在熟悉的样子——大容量、小尺寸、读写速度快。
目前,硬盘已成为主流的存储数据的硬件设施,并在各类电子产品中普及。但是在其发展的过程当中,软盘、光盘、盒式磁带等存储载体在不同的时期也展示过各自的风采。
2021年3月,盒式磁带发明人路易斯·奥滕斯(Louis Ottens)去世。虽然盒式磁带几乎已经退出了历史舞台,但对于80后、90后来说这是他们的美好回忆。学生时代练习英语听力、存有偶像歌曲的磁带,搭配上便携式随身听,这些是那个时代的特有符号。
20世纪60年代,奥滕斯发明了盒式磁带,其分为A、B两面,每一面都可以容纳40分钟左右的音频。磁带由塑料外壳包裹,以保护其中的数据。但即便如此,磁带本身比较容易因潮湿等自然原因产生损耗,数据无法长久保存。
奥滕斯还参与了CD的发明,从便携程度来说,CD和盒式磁带不相上下。但是CD在数据存储的可扩展性、安全性等方面要强于盒式磁带,CD不仅可以存储音频,还可以存储影像和游戏等数据。CD的寿命也比较长,在正常气温和环境下,数据存储的生命周期可超过100年。
相较于盒式磁带、CD、硬盘等存储载体,软盘的受众要更小一些。IBM在早期为解决计算机操作指令的存储问题,在1967年推出了世界上第一张软盘。很多80后、90后在大学时代上计算机课的时候,老师可能会分发装有某个软件程序的软盘,供他们进行安装。但是由于软盘容量太小、读写速度慢、数据易丢失等,软盘逐渐被U盘取代。
到了21世纪,原本笔记本电脑或台式电脑的服务器上还保留了支持CD、软盘的接口,但现在这些电脑配置几乎被淘汰了。互联网科技的不断进步,也不断推动着数字化社会的进程,曾经的软盘、盒式磁带、CD等存储载体也逐渐淡出了大众视野。
回顾互联网时代存储载体的发展,其遵循着以下3个原则。第一,可扩展性:在体积不变或减少的情况下,存储容量不断增加;第二,便捷性:除了体积适宜、便于运输,兼容性也非常重要。既能够在自己的设备上使用,也能够在其他设备上使用;第三,安全性:随着数据的不断增多,对于个人来说其价值也在不断增加,因此数据存储的安全性至关重要。