第1章 人类视觉系统及其建模
1.1 人类视觉系统概述
计算机视觉的研究对象之一是如何利用二维投影图像恢复三维景物世界,其基本目的可以归结为从单幅或多幅二维投影图像(或视频序列)计算出观察点和目标对象之间的空间位置关系及目标对象的物理属性。例如,包括目标对象与观察点的距离(即深度信息)、目标对象的运动特性和表面物理特性等。计算机视觉最终的目标就是实现计算机对于客观世界的理解,从而使得计算机可实现人类视觉系统的某些功能。
人类视觉系统(Human Visual System,HVS)是一个非常复杂的系统,至今还没有被完全地理解,而且大多数的人类视觉系统视觉特性不是凭直觉获知的。人类视觉系统是人们理解和认知自然世界的关键工具,是揭示大脑秘密的一个突破点。所以,了解人类视觉系统的生理结构,分析信息在大脑中的传递过程和形成处理过程是研究计算机视觉的必要前提。深入研究人类视觉系统对视觉刺激的处理机制,合理地利用这种人眼视觉特性,才有可能在更高层次上研究真正意义的计算机视觉算法和系统。
正因为如此,才使得脑科学成为目前研究界的热点。在大脑接收来自外部世界的大量信息中,绝大部分是通过视觉系统进行加工处理的。视觉信息加工机制是心理学、神经科学、计算机科学等学科研究的重大课题之一。人类的视觉系统是目前已知的功能最完备、机制最复杂的信息加工系统之一,对它的研究无疑对了解人类自身信息加工的能力和机理,对理解大脑中所表达的信息和外部物质世界的关系等问题具有重大的意义。此外,计算机科学的发展突飞猛进,创造具有人类大脑那样的智能计算机是研究者最大的期望之一。为使这一期望成为现实,首先就要使计算机具有大脑那样处理大量复杂信息(特别是视觉信息)的能力。这个重大课题虽然经过计算机科学家们几十年的努力但仍未得到解决,其中最重要的原因之一就是迄今为止我们仍然没有透彻了解人类视觉系统的工作机制。
不过,随着脑科学的蓬勃发展,人类对自身视觉系统的研究逐步深入,从初级视觉皮层到高级视觉区域,从视觉感知到高级视知觉机理等,都取得了许多重要的研究成果。
现代脑科学和神经科学的发展使得我们得以更进一步地了解人类视觉系统的构造以及功能。视网膜引出的视觉神经的传递路径及外侧膝状体、视觉皮层的很多工作机理已经逐渐为人们所了解。初级视觉皮层中神经细胞的感受及相应的神经编码机理也已经被揭示出来。视觉系统提供给我们的信号是经过多级处理的,在处理的过程中,丢失了相当多的信息,剩下的信息在尺度和强度上与视网膜神经细胞感受到的信息有着显著的不同。
视觉生理学研究已经表明,视觉信息处理过程包括4个方面:光学处理、视网膜处理、外侧膝状体(LGN)处理和视觉皮层处理,其原理图如图1.1所示。
光学处理是通过眼睛完成的,眼睛的感光系统如图1.2所示。它的主要功能相当于“相机”。相应地,巩膜类似于球形相机的保护壳和暗箱,把眼球整个包围起来。同时角膜在集中照明上扮演着重要的角色。虹膜被认为是一个孔径,控制着瞳孔的大小,瞳孔负责调节视网膜上的亮度,同时也影响着系统的焦距。镜头就像晶状体,视网膜相当于胶卷。最后,光线集中在视网膜上,形成一个清晰的物体图像。现代相机的各个功能部件都可以在人眼中找到相对应的部分,但人眼远比相机科学、灵活。例如,人眼可以靠直接调整透镜的曲率来调整焦距,也可以通过眼球外侧的6块肌肉的运动来控制眼球的视线指向,产生双目视差以形成深度知觉。
图1.1 视觉信息处理原理图
图1.2 眼睛的感光系统
研究显示,视网膜主要由三种神经细胞构成,即感光细胞、双极细胞和神经节细胞,它们负责光、电转换和信息传输。感光细胞主要包括视锥细胞和视杆细胞,视锥细胞主要在强光下辨别强光信息,称为明视觉;而视杆细胞主要对低照度的景物较敏感,称为暗视觉。人类的明视觉和暗视觉的特性不同,表现在人眼对明、暗视觉下最敏感的可见光波长不同。双极细胞的作用是负责联络视细胞,即可以使多个视细胞相互联系。神经节细胞位于最内层,专门负责传导。这种细胞与细胞之间的联系,以及视觉信号通过眼睛最后在大脑中形成影像并理解影像内容的处理流程就成为计算机视觉的一个重要参考标准。神经网络,包括现在流行的深度学习技术,都是对这种流程进行模拟的尝试,并在近几年中,取得了很好的效果,如深度学习在图像分类、目标检测与跟踪、行为分析与理解等方面都获得了空前的成功。
通过视网膜,光信号被编码为电压脉冲,再以调频形式传递给LGN。LGN作为信号从视网膜到视觉皮层的传输站,同时对控制信息数量起着重要作用。最后,视觉皮层实现了对物体的识别、感知与理解的过程。
总体来说,外界物体在视网膜成像时,实际过程是:光线这个刺激因素被视网膜的感光细胞(视杆细胞和视锥细胞)转变为电信号,后者经视网膜内双极细胞传到神经节细胞形成神经冲动,即视觉信息,视觉信息再经视神经传向大脑。双极细胞可以看成视觉传导通路的第1级神经元,神经节细胞是第2级神经元,很多神经节细胞发出的神经纤维可以组成较粗大的视神经。LGN是视觉信息的中转站,视辐射可由LGN中含有的第3级神经元组成,最后将这些神经纤维投射到视觉皮层中。视觉传导神经通路如图1.3所示。
图1.3 视觉传导神经通路
视觉皮层中17区被称为第一视区(V1)或纹状皮层。它接受外侧膝状体的直接输入,因此也被称为初级视觉皮层。对视觉皮层的功能研究大多数是在这一级皮层进行的。这是大脑皮层处理视觉信息的起点,从初级视觉皮层开始,视觉信息通过多个通道把视觉信息传入更高级的皮层进行处理。V1区主要包括两类神经细胞:具有朝向选择性的简单细胞和对位置不敏感的复杂细胞。作为整个视觉皮层的底层部分,V1区的神经细胞的功能是,将底层视路的信息转换成初级视觉信息表示,并且直接向高级视觉皮层输送视觉信息。现代计算机视觉和视觉信息的表示都是基于人类这种视觉特性而进行构建的,两者都是对人类视觉系统的模拟。如在计算机视觉中,采用RGB三基色来表示自然界的各种颜色,实际上,其基本原理就来于感光细胞中的三类细胞:红敏细胞、绿敏细胞和蓝敏细胞。并且绿敏细胞的数量是最多的,因此在任何颜色空间的转换中,亮度信号中绿色分量也就是G分量对应的系数是最大的。
基于对人类视觉系统生理上的不断理解和深入研究,所获得的新的认知原理都可能应用在计算机视觉的各个方面,从而使得新型计算机视觉技术更加适应人类的认知习惯,更加符合人类的感知特性。例如,在3D视觉中,3D电影和电视近年来不断刷新人类的认知,但大家普遍感觉戴3D眼镜来观看3D电影并不是一种很好的体验,尤其是长时间观看3D电影,可能会对人类的视觉造成损伤。这表明目前的3D电影虽然也是通过模拟人类视觉系统来进行研究并设计的产品,但可能对于人类与此有关的一些视觉特性并没有研究透彻。因此促使研究者更加深入地研究这个问题,目的是能设计出更符合人类视觉特性的3D电影和电视。可以预见,随着技术的进步,计算机视觉系统的设计将会越来越更真实地模拟人类的视觉功能,并在实际应用中更加体现出超越人类的性能。