计算摄像学:成像模型理论与深度学习实践
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.1.2 研究内容

计算摄像学是研究成像的学科,其研究内容可以根据成像的本源,即“光”的属性进行划分。本节从“一横一纵”两个方向,依据成像的流程和属性对计算摄像学的主要研究对象和研究内容进行概述。

1.依据成像流程划分的研究内容

成像的基本原理是将场景中的光信号利用光学器件收集到传感器平面上(“聚光”),然后通过传感器对光信号进行响应(“传感”),最后将该信号转换为可以在成像介质上表达的形式(“处理”)。“聚光—传感—处理”这三个步骤在模拟摄像、数字摄像和计算摄像中都是存在的,只是其实现的方式各不相同。对于模拟摄像,传感是一个化学响应过程,通过胶片对到达传感器平面的光强变化做出响应,最后以“冲洗”照片的方式处理胶片上记录的视觉信息形成纸质相片。到了数字时代,实现“聚光”的光学器件部分与模拟相机大同小异,主要还是通过透镜改变光的传播方向达到汇聚的目的,然而传感和处理则变成了光电转换与数字电路的运算,最终影像的呈现形式也变成了数字图像,如图1-2(第一行)所示。计算摄像的“计算”可以体现在上述三个过程的任一环节,甚至可以是三者之间的联合运算,如图1-2(第二行)所示。

图1-2 传统数字摄像和计算摄像的区别(基于CMU 15-463[1]课程讲义插图重新绘制)

场景和光学镜头之间的计算:在场景中传播的光线到达传感器平面之前,可以利用光学器件对传统的只有“汇聚”的光传播路径加以改变,对汇聚之前的光信号进行编码和调制,可以捕捉到传统摄像中丢失的一些光传播信息。例如,可以通过在传感器平面之前放置微透镜组(lenslet)的形式,达到等价于从平面上的多个不同位置进行拍照的效果,进而捕捉光线随着拍照位置变化的信息,也就是光场(light field)。图1-3展示了其原理示意图和依据该原理制造的光场相机Lytro Illum的原型机。由于原本聚焦在一起的光线被重新散开到了不同的位置,且这些信息被后方的传感器完整地记录了下来,因此拍摄者可以根据需要,选择合适的光线通过后处理的算法进行重新“汇聚”,进而利用光场摄像实现“先拍照、后对焦”的神奇应用。

传感器上对光信号进行计算:当光信号到达传感器平面的时候,对这些光信号进行感知和分析是接下来要面临的问题。如何设计和实现新型的视觉信号感知器件与芯片,在传感阶段获取传统图像传感器无法有效感知的、图像平面以外的信息,可以为计算摄像发挥作用提供更广阔的舞台。读者所熟知的微软Kinect传感器就是这方面的成功典型。这一低成本的和普通相机易用性相仿的深度视觉传感器,通过散斑结构光(第一代产品)和飞行时间成像(第二代产品),对众多视觉计算问题(例如室内场景的实时三维建模、三维人体重建等)在三维空间中的普及做出了重要的贡献。北京大学黄铁军教授团队于2017年提出的脉冲视觉理论及其视觉感知芯片实现,也是在传感阶段引入计算的“从0到1”的原始创新,脉冲成像的原理和相机原型如图1-4所示。通过将到达传感器之前的光信号以微秒级的时间灵敏度进行响应,并将其转换为比特流,打破了传统相机基于“帧”表示视觉信息的壁垒,可以更加准确和完整地记录光强的时空变换,带来全时、自由动态范围的成像,为后续的计算处理提供了无限的可能和广阔的应用前景。

图1-3 光场摄像的原理和相机产品(a图基于论文[2]的插图重新绘制,b图来源于网络)

http://lightfield-forum.com/lytro/lytro-archive/

图1-4 脉冲成像的原理和相机原型[3]

传感器和图像之间的计算:这部分计算是与传统的数字摄像最为接近的过程。这里计算摄像算法与图像处理、底层(low-level)计算机视觉算法和图形学中的图像编辑问题的边界比较模糊,这也正是计算摄像学作为一门交叉学科的特色。目前已经趋于成熟并广泛应用于智能手机的全景图拼接、(通过融合多曝光图像的)高动态范围成像(包括夜景摄像)等应用,就是在这个层面实现的。计算摄像学和其他关联学科(尤其是计算机视觉和计算机图形学)在这一环节的区别,主要在于计算摄像的这一环节需要和前面的聚光与传感进行更深入的融合,通过三个环节中完整的光传播分析、传感器设计以及后端算法的联合优化,达到在成像过程中联合计算的目标。

因此学习计算摄像学,需要通过对上述“聚光—传感—处理”过程进行深入的理解,从而在恰当的位置引入合适的计算,达到优化成像体验的目的。

本书后续章节将对基于该流程各个环节的计算引入进行详细阐述。

2.依据成像属性划分的研究内容

光作为一种电磁波,拥有波长、频谱、传播速度和偏振方向等多种属性,其在自然空间中的传播是一个非常复杂的过程。受限于传统成像的流程和数码相机的工作原理,在真实三维场景中传播的光线会在一段时间内(曝光时间)被积分,在一定波长谱段内(RGB)被滤波,然后投影(深度丢失)和量化(有限的分辨率)到图像传感器平面。在图像形成的这个过程中,场景信息的多数维度是无法被摄像过程记录的。换言之,图1-2(第一行)所示的数字摄像流程,只能记录图1-5成像属性中的RGB三个层面,对比图1-5所示的全维度成像属性,其信息量是十分有限的。

从场景属性的完整记录与恢复这个角度,计算摄像学的研究希望回答如下的问题:

在成像的过程中丢失了什么信息?如何找回这些丢失的信息?

图1-5 全维度成像属性及其对应的计算摄像研究问题

图1-5中的箭头在深度和广度上是可以延伸的,指示了对传统图像进行扩展和延伸可能探索的一些方向。以该图的左侧为例:通过计算扩展出的图像分辨率可以数倍于传感器像素个数(超分辨率);通过计算可以使单张图像的比特深度大于传统相机所使用的以8比特为主的图像格式(高动态范围成像);通过对多张不同光照情况下的图像进行分析可以对物体的表面法线进行逐像素的提取,相当于每张图像多了一个三通道的法线层来表达精细的几何信息(光度立体视觉);通过计算也可以将一张图像分解为材质(用反射率表示)和光照[用明暗图(Shading)来表示]层,对拍摄到的场景物理属性就是否与光照相关进行区分(本征成分分解);此外,还可以通过引入计算的方式对成像过程中由于相机本身的非理想特性和环境的干扰所带来的各种各样的噪声、伪影进行抑制、消除,例如由于物体高速运动或者相机抖动带来的模糊(去模糊),由于隔着玻璃等材质进行拍摄带来的反射叠加干扰(反射消除)等。如何通过计算摄像来解决上述成像属性的恢复、拍摄性能的提升等问题,在本书的后续章节会进行逐一的论述。

图1-5的右侧还列举了全维度成像属性中包含的其他计算问题:例如通过计算细化光谱波段精度的高光谱成像问题,通过立体视觉、结构光和飞行时间等技术构造三维视觉传感器获取场景深度的问题,以及在光速尺度下就时间维度对场景光传播进行解析的瞬态成像(transient imaging)问题等,这些问题也都属于计算摄像的研究内容,但是限于篇幅,本书不对其进行详细讲述。