大数据——受想形识,亦复如是
“大数据”这个新名词,近来总在不同的媒体出现。大数据的浪潮扑面而来,自然会伴随着大量的泡沫。究竟什么是大数据,好像不同的人有着不同的理解与解读,但感觉总体形象还是不十分清晰。如果说数据科学,那就比较容易理解了:是关于对象为数据的科学,而大数据应该是数据科学中的问题,是数据科学中尚未解决的问题,是数据科学中的一个研究领域。那么,大数据与传统的数据科学有什么差异呢?大的一个直接解释是多。但是我认为,数据多并不自然就是大数据,譬如:小孩子背圆周率,不可能全部背出来,因为这是一个无限小数,也就是说数据无限多。但是数学早已经给出了多种不同的计算方法,你可以想要精确到多少位就精确到多少位,同时也可以证明,不可能在有限的时间内背完圆周率。我认为,凡是数学已经给出方法计算的都不能算作大数据,或者说用现有的数学方法处理的数据都不能算作大数据。当然,可以发展并行计算、云计算等新的计算方法来提高其运算速度。
数据科学的第一个基本问题是排队,数学上叫排序。你可以像幼儿园老师一样,一个一个地拉来排好,这叫串行算法。到了小学高年级,如果全体同年级孩子重新排队,可以在各班排队的基础上,让各班从高到矮排好,然后列队走来,校长只要比较各列第一个的高矮逐个放行,这叫并行算法。如果大量的中学生以上的成年人要排队,那么你可以采用云计算的办法,让他们自己判断可能在什么位置附近,然后自觉地与边上的人比较,交换调整。
那么什么是大数据呢?我们还是从什么是应用数学,或者什么是数据讲起。数据科学是应用数学的核心组成部分。应用问题要提高到科学的层面,或者说可以思考分析的层面,要通过一个交流的界面或接口,而交流的媒介一定就是数据。人与外界的交流也是如此。我们现在与外界的交流越来越依赖于各种电子产品,几乎任何信息都可以转化为数字或数据进行。笼统地讲,数据科学涉及:数据采集、描述、表示、分析、重构、理解、演绎、挖掘等部分。而大数据与传统的数据科学的差异,我认为主要在于:数据的异源、异构,不能直接嵌入经典的数学空间,含有深层的隐藏信息,以及与已经获得的经验数据的联系、融合。这是大数据研究的挑战性所在。
为什么要研究大数据,当然是为了提高我们对现实世界的认识,使之达到大智慧。佛学中称为“般若波罗蜜多”,所以在这里引用“般若波罗蜜多”心经:“受想形识,亦复如是”。这里我改动了一个字,将“行”改成了“形”。
受——就是感受,就是数据采集;
想——就是数据分析;
形——是形成概念,是数据重构,形成人脑中的世界;
识——是对数据解读,进而成为对现实世界的理解,并可以为己所用。
下面准备就这4个方面谈谈我对大数据的理解。
受——数据采集,人是怎么感受世界的?还是要引用心经:“眼耳鼻舌身意”。眼睛看到的东西我们可以用数字照片记录下来,耳朵听到的可以用数字录音,视网膜、耳蜗中的绒毛及听骨记录的,如同计算机中视频、音频文件,也是有限的离散数据。电子鼻、糖度仪在一定程度上模拟了鼻舌。“身”是触觉,也有不少仪器模拟它,人们制造了大量的仪器,如红外遥感、X波雷达、CT等来模拟而且扩充了人类采集数据的能力。而“意”的解释稍微困难一些,那是第六感,用数学语言说就是通过异构数据的协同计算获得的信息,蝙蝠可以通过听声音来辨别前方的物体,而一个人如果能够听音辨物,就会被认为具有特异功能。
图1
再问一个问题:人可以从鼓声听出鼓面的形状吗?纯粹数学家找到了两种构造复杂的鼓面(见图1),证明了它们发出相同的声音。而对于应用数学家来说,纯粹数学家的这个结论(人们无法区分这两种不同鼓面形状发出的声音)事实上告诉我们,如果只有圆、椭圆、三角、四边、六边、八边等简单鼓面形状的鼓,人们是可以通过训练(数学上是学习算法),从鼓声中区分鼓面形状的。如果你的上司发火时会伴随着脸部的肌肉抽搐,当你半夜从睡梦中被一阵电话铃声叫醒,听到他在电话里对你咆哮,虽然你没有看见他,你的脑海中一定会出现那张变形的脸,或者说你甚至可以听出表情。这好像是超能力,我更愿意把它叫做隐性能力。X波雷达、红外遥感也是如此。所以,数据科学首先要在数据采集上将看不见、听不见的数据转换为看得见、听得见的数据,将不是用通常的数据采集手段采集的数据转换为通常的数据表达形式,以扩充、提高我们采集数据的能力,特别是拓展隐性能力。反过来,心理学家也做过实验:将一个每秒24帧图像的影片,每24幅后加一张图片,可以是血腥的,甚至只是写上一句令人沮丧的话,然后以每秒25帧的速度播放。播放时人们一般不会发觉有什么异样,但当看完整部电影之后,人们就会感觉非常地不舒服。这也叫暗示,某种信息在不知不觉中传到并且记录在你的脑中。近年来,有不少科幻影片就通过手机等植入广告式地发送隐藏信息以控制人们的思想。甚至有传言,美军在伊拉克战场就已经采用这种战术,在战场上用超声波播放伊斯兰教祷告的录音以瓦解对方的斗志。开发利用数据采集与播放发送的隐能力,是数据科学特别是大数据的重要领域。
得到数据以后还需要记录。对于多元、多源、异构、海量数据的记录是数据科学在数据采集方面的第二个问题。人脑记录数据利用了脑细胞,并同时激活了它们之间联系的神经,也就是说,同时记录了数据本身和这些数据之间的关系,甚至是跨结构的数据间的联系。跨结构数据关系的记录研究是数据结构研究中还几乎少有涉及的领域。在我们浏览网页时,下面“浏览过该网页的人还浏览了猜你也喜欢的网页链接”信息,给我们带来许多方便(同时一定程度上也控制了人们的思想,植入性地引导人们去看网站希望你去看的信息)。网站在记录网页及浏览网页的人员同时记录了(由浏览者自己,可以说是用云计算的方法得到的)网页间的联系。网络上各计算机节点的描述,基础的是每个计算机上的文件(文本、音频、视频,以及驱动这些文件的软件程序)本地联系或连接处理,完成本地计算机的工作功能。进一步地还有计算机间的连接与问题处理,网络间联系可以处理远程计算,远程云检查病毒、杀病毒,甚至是多架无人机远程精确打击。博客是通过点击率提升博主地位的。大家都知道科技文章中有个影响因子,即有多少文章在引用你的文章,在ISI网页上不仅可以查到引用情况,还可以查到二次引用,即有多少文章在引用曾经引用过你的文章。这个结果不仅反映了你的文章的引用情况,还确切地反映了被你的工作影响的研究人员的地位与影响力,从而更加全面地反映你的文章的影响力。这些都可以被认为是在做云计算,在不知不觉中把有意义的作品推到了你的面前,节省了你自己搜寻的时间。
图2
想——数据分析。首先是去噪,譬如现在好的相机都有防抖功能,这是利用数学方法获得去除噪音的图片;再一个是滤波或者说信号分离。在宁静的山村,早上醒来,听到几拨鸡叫,你会记得有几只鸡,它们在哪几个方位。这里你做了现在称为机器学习或学习理论的事情:识别与分类。你把一些鸡叫声归为一类,识别出这是同一只鸡的叫声,同时分辨出有几只鸡。看了一个网页时,你会记住一些关键词,或者说提取了特征统计量。在记录图片时,记住的不会是图片每一个点的颜色(BMP文件),而主要是一种印象,或者说是印象派的图像。我们知道印象派有两种:一种是高更的,是导数、图像边缘突现;一种是莫奈的,模糊化的,可能是JPG文件(数学中称为小波框架的图像,见图2)。这也就是压缩感知。把数据进行降维、压缩,记住我们想记住的东西,用尽量少的脑细胞记住一件事情。数据处理的一个重要组成部分是数据的降维,譬如人脸识别。如果我们可以简单刻画(用简单函数表示)这个人的像片所在的那个低维流形,那么我们就很容易地识别出那个人。降维的主要数学方法是主成分分析,也就是特征提取。统计中的均值方差都是数据的某种特征。可以说任何科学及数学问题的处理无不遵循这个原则,即找出主要矛盾与次要矛盾的关系。譬如,勾股定理(又叫毕达哥拉斯定理)的原意是划出方块的土地。地球是圆的,根本没有方块的意义。但我们的先贤把它看成是在一个平面上的问题,得到了这个漂亮的结果,并且广泛地进行了应用。现在看来在地球表面上用勾股定理画方块,显然是错的。欧几里得空间是数学的基础,但也经常限制了人们的思想自由。而爱因斯坦(Albert Einstein,1879—1955)发现世界上根本就没有直线或者平面。光线走的并不是直线。这里不是单纯的数学问题,而是一个哲学问题——时空的关系,我们是用地球绕太阳转一圈来定义“年”的,或者更加精确地用“光”走的路程来定义“秒”的,同时在应用中又用时间来定义路程——光年。JPG还把一个大概印象放在高层,而将细节放在底层,并逐渐细化地显示。心理学家也做过实验,让许多人快速看一些图片,然后让他描述所看到的内容,这就是印象。研究发现人的印象也可以分为两类:高更型可以归于逻辑思维型——将图像分片,每片用一种颜色表示;莫奈型可以归于形象思维型——是细节图像模糊化的结果。当然,更多人的印象介于这两者之间,融合了这两个压缩感知的方法。
数据从数学上来说主要表现为点或高维空间的点,函数离散化以后还是点,算子离散化以后是矩阵或张量,仍然是高维空间的点。通俗地讲,数据处理就是处理高维空间的点之间的关系。而点之间的关系是由距离(注意:通常不是欧几里得的距离)或连接图、连接路径组成。这在数学上用转移矩阵表示,或者说这是复杂网络的动力学问题。要找到点之间的关系,通常首先要给每个点或点簇、点云一个地名,这个地名通常是模糊的,它由这个抽象的点或点簇所表示的具体对象的一些关键词组成,这时学习理论的两个根本问题又出现了:一个是模式识别,就是寻找关键词、特征;一个是分类或者聚类,把相近或相异的关键词用数学表示出来。接下来是一个在数学上还只是知道皮毛的问题,就是用数学来研究词典、语义学、句法分析、人物关系、段落大意及文章主题。
形——数据重构。通常认为数据有三元的结构属性:真实的存在、记录的数据、人类的理解。人脑形成的对该事物的理解与采集的数据是有差别的,而采集的数据与该事物的真实存在也总是有差别的。不可能采集事物的全部数据,人脑对真实事物的理解会比采集数据更全面。记录的数据通常是有容余的,同时又是不全面的。譬如,我们有一个人在不同环境下的大量照片,这些照片中有些部分是重复的,通常脸部最多,但又不完全重复,因为角度可能不同,光照可能不同,表情可能不同。我们把“Redandency”翻译成“容余”而不是“冗余”,是想说明这些信息是有重复,但它对信息重构不是完全没有用的,是一种“灰色信息”。当从真实存在的事件中采集数据以后,人脑会对其复原或重构,在人脑中形成对该事件的形象或理解——脑海中的世界。譬如,手机基站每隔几秒钟就要采集你的手机的位置,这样他就可以给出你的行进路线图,这在数学上叫做插值与逼近。如果是多人的问题,那么这是一个随机图的动力系统。如果你从一个手机基站走到另一个手机基站,那么这里有一个关系矩阵或转移矩阵。人们总是将获得的信息或数据去噪、解构、分类后重构、安装到自己已有的知识结构中。譬如,你阅读了本文,如果可以马上背出全文,那么你一定患有自闭症。聪敏的你会把本文的观点进行分解、提炼,分为有用的和没用的、你已经知道的和新的、对的且重要的、错的但也还是重要的、无所谓的,等等。你会忘记没用的、旧的、无所谓的,而将有用的、新的、重要的融入你的思想结构,激活有关的神经与脑细胞。形象地说,你是将本文剪下一些合适的碎片,作为补丁,修补你的思想结构。因为获得这些观点还可能有其他渠道和来源,你会在对这些观点进行分析,特别是在批判性分析的基础上,综合形成自己的观点。对于信息有多个来源、你该信谁的问题,就犹如一个专家系统。譬如,许多软件可以自动进行天气预报,但结果一般不完全相同,医生看病也是如此。最为简单的是加权平均,比较地相信权威。但你会得出更为聪敏的结论,知道在什么问题上应该更相信谁,并且一定会以非常大的权保留你自己固有的思想。用数学的语言说,你会将问题升维,在一个更加高的思维层面上考虑问题。“克莱因瓶”不能在三维空间用函数描述,但在四维空间可以用数学描述。复数、四元素正是用来处理这样的问题。所以,为了更好地处理数据,升维是数据处理的一个重要方法,在一个更加高的思维层面上考虑问题,以便更好地看到主要矛盾与主要矛盾的关系。而这就涉及异构数据的融合问题。还是要请读者注意,安装一般不是欧几里得的张量积,数学叫做直接和。上面讲过勾股定理,这实际上是伟大的数学家毕达哥拉斯、欧几里得的思想局限。再问一个基本的哲学问题:宇宙是有限的还是无限的?这个问题要放到四维以上的空间才能更好地进行描述。人在三维空间内,总认为我们所处的空间是平直的。当时,毕达哥拉斯(Pythogoras,约前580—约前500)已经生活在三维空间了,但他还是把地球球面看成平面,更何况一只只能生活在地球表面的两维空间小虫。可以设想我们生活的空间在更高维的空间且不是平直的,称为流形。那么是怎么弯曲的呢?从三维看两维,弯曲分成椭圆、抛物、双曲等类型。如果是椭圆形的,那么可能是有限的,否则可能是无限的。还有个问题:什么叫宇宙?如果把宇宙定义为可以到达并且回来的所有位置,庞加莱猜想说的就是所有的闭曲线可以收缩为一个点的流形同胚于球面的一部分,也就是没有亏格,或者形象地说没有洞。如果有亏格,那就是环面或者是多个黏在一起的环面。在三维空间中我们看到过平面吗?平面只是想象出来的东西。我们看到的三维空间中的曲面都是某个有限实体的表面或者说边界。它们都同胚于多个黏在一起的环面。所以说,宇宙更有可能是一些高维空间的三维环体连接在一起的。最近人们用数学讨论办公室的人际关系,如《红楼梦》、《悲惨世界》中的人物关系,发现他们也可以嵌入或黏贴到一个或几个环面上。这就是庞加莱猜想的魅力。几乎任何的数据关系都可以黏贴(嵌入)多个黏结在一起的环面上。环链好像是数据关系的普遍形式。
识——数据挖掘、预测、利用。数据都已经成为海量数据了,但总还是有限的,也就是说,对于真实世界的描述我们可以获得的数据还是太少太少。我们还在瞎子摸象阶段。经典的数据科学回答说大象像簸箕。因为问的问题是大象像什么,而采集到的数据只有大象的耳朵。作为大数据,首先应该通过其他途径的经验数据综合认识到大象的耳朵像簸箕,然后还可以综合采集其他部位的数据的结论,形成对整个大象的描述。在数据重构中,人们应该得到比采集数据更多的东西,根据经验恢复部分的缺省数据。譬如,对于大楼,我们得到的是物理真实存在的一些不完整的信息,在人脑中形成对大楼的了解。物理存在的内容是完整的事实,可以看到或了解的只是其中很少的一部分。譬如,只是一张斜角包含大半个正面的照片,但由对称性等经验,在人脑中形成的影像会更全面。如果我们有高楼的下面几层的照片,其中窗户是清晰的,同时又有该高层建筑的远距离照片,窗户不怎么清晰,那么在人脑中形成的将是一张窗户清晰的整体照片。人脑有非常强的数据解构、重建及根据经验再融合重构的能力。大数据就是希望利用数学通过计算机来实现这个能力,并且希望比人类做得更好、更快,特别是大数据分析中,希望完成利用人力几乎不可能完成的任务。看到半张脸、半幢大楼,那么根据对称性,我们对整体会有一个更加全面的形象概念。当你下一次从另外的角度看见他时,你还会认识他。那么半句话呢?前几天我在某城市就看到一个被树木遮住一半的城市公益广告牌上写有“花一样的……”。因为是市府公益广告,第一反应是“花一样的城市”,提醒保持环境卫生之类;后来看见边上是一所小学,我想到了“花一样的年华”,提醒过往行人要遵守交通规则;当然脑海中还出现了“花一样的笑容”、“花一样的美丽”等句子。走近一看是“花一样的钱,办更大的事”。这是经验数据在起作用,可见我的经验是比较浪漫的,局限在花朵的花,与现实有一定的距离。当然,可以用数学的方法处理这样的问题,譬如在百度上键入“花一样的”,然后就可以得到非常多的信息,聚类分类后统计一下,就可以得到某种结果出现的概率。但是不要忽略这是市府的公益广告,边上有学校等这些只有在具体事件发生地才会出现的非直接信息或可采集到的数据。这些信息通常是有用的,并且可能是起决定性作用的。而在上面的例子中,也可能是误导信息。大数据就是要处理并合理利用这样的信息。现在许多案件的破获都利用摄像头的视频信息。譬如波士顿爆炸案,是由一系列的模糊信息导致的越来越清晰的结论:炸弹包裹是黑色手提包,有带黑色棒球帽者提着黑色手提包,带黑色棒球帽者经常与带白色棒球帽者在一起。带白色棒球帽者的脸部清晰照片经警察局比对后,发现该人有案底记录。但要处理这些照片需要很多工作量,这些工作有时只靠人力还不行。每个人只能处理一部分照片,而更为关键的是将各照片中的模糊结论或模糊概念联系起来是模糊的还是更为清晰的结论。首先应该整理这些照片得到一些关键词,最好在照片的拍摄过程中照相机就已经进行了自动处理(离线处理、预处理)。譬如现在你用iPad拍照,照片上不仅有你拍照的时间,还有你拍照时GPS定位的坐标,如将拍照时人脸搜寻的信息也加进去,记下有几个人等,并将这些进一步的信息放在照片附带的说明文件中。关键词或者说标签最好是标准化的,当然越标准化越会流失一些可能有用的模糊信息。由于视角的不同与关心问题的角度不同,每个人选择的关键词或者标签也是不同的,是个性化的,这样又导致了个性化关键词的语义模糊匹配问题。在数学上,对个体智能或底层数据处理的研究已经达到很高的阶段,并且可以说已经看到了基本解决此类问题的曙光。但对群体智能,如何融合多个个体智能的高层数据结构的处理、描述、传输,以及动力系统行为的研究还处在一个刚刚起步和黑暗的阶段,也就是说大数据处理的高层云模糊设计的数学描述,是大数据处理是否可以有所斩获的关键。具体就是如何整理非结构化的数据,使之成为拟结构化的、半结构化的或者结构化的数据,同时又不丢失可能有用的信息。
对于数据结构,最后我特别想对框架说几句。大家都知道基或坐标。点、函数都是由基的线性组合来表示的。基表示有个缺点,就是当某个数据(坐标、表示系数)损坏时是没有办法恢复的。而在紧框架下,数据有自我修复功能。这个革命性的表示方法,在图像处理中已经得到了大量的应用。
总的来说,大数据研究是用数学或者数据来描述、理解现实世界,而学习是完成“受想形识”,达到“般若波罗蜜多”的唯一途径。
复旦大学数学科学学院 吴宗敏
(本文摘自《科学》2014年第66卷第1期,《新华文摘》2014年总549期第9期,此处文字略有改动。)