计算摄像学:成像模型理论与深度学习实践
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

前言

我读硕士、博士期间主要从事光度立体视觉的研究,按照计算摄像的研究范畴划分,属于计算光照相关的内容。光度立体视觉要解决的主要问题是如何从光照变化的图像序列来推断形状,学生时代的科研训练让我初步领略到了可以利用光的神奇特性扩展成像的维度。博士毕业后,我希望可以对这些神奇的特性进一步深入探索,也许有一天能够窥其全貌,于是继续从事博士后研究。恰好在我寻找博士后机会的那段时间,麻省理工学院媒体实验室(MIT Media Lab)的一个研究组连续发表了一系列利用飞秒相机对光的时间维度(在光速的时间精度下)进行捕捉和重建的论文,其中实现了对光传播过程的可视化、全局和局部光照的分离等。这些在今天看来视觉效果依然很震撼的研究工作深深地吸引了我。后来我很幸运地加入到这间实验室,继续“入坑”计算摄像研究,为实现“将不可见变为可见”(turn invisible into visible,当时我的导师对计算摄像终极目标的解读)的理想继续前行。

由于博士期间的研究更多是关于物理的计算机视觉,我对于成像理论的系统学习还比较有限。麻省理工学院汇集了计算摄像学与计算机视觉领域众多全球顶级的资深专家,在麻省理工学院工作期间,我有幸聆听了媒体实验室和计算机与人工智能实验室(CSAIL)开设的多门特色鲜明又互相补充的课程:Berthold K.P.Horn教授[从明暗恢复形状(Shape from Shading)、Horn-Schunck光流算法的提出者]在6.801 Machine Vision课堂上全程板书对于透视投影深入浅出的分析,Ramesh Raskar教授[我的博士后导师,媒体实验室“相机文化”(Camera Culture)实验室的负责人]在MAS.131 Computational Camera课堂上将计算摄像原理与当时硅谷大厂的黑科技环环相扣的讲述,都给我留下了非常深刻的印象。2014年春季学期,我有幸参与到媒体实验室MAS.532 Mathematical Methods in Imaging这门课的教学中。考虑到媒体实验室交叉学科的特性,如何针对不同背景的学生讲清楚成像当中的数学模型,对于教学经验几乎为零的我来说挑战很大。为了准备好我负责的两个小时的课程,我花了一些时间来调研美国顶级大学计算摄像课程中的相关内容。在这一过程中,我惊喜地发现这一领域的顶尖学者们开设了众多“宝藏”课程,例如斯坦福大学的Marc Levoy教授、哥伦比亚大学的Shree Nayar教授和多伦多大学的Kyros Kutulakos教授等。

2017年底回到北京大学任教之后,我开始构思开设自己独立承担的专业课程。北大从事视觉计算相关研究的老师数量和覆盖方向的全面程度,在国内高校应该算是数一数二的。然而我注意到计算摄像这一美国高校十多年前就开始有课程开设的新兴学科,在北京大学尚未有对应的课程。所以我立即向学院和学校提出了申请,并在2018年春季学期顺利开课。2018年寒假在准备这门课的讲义的过程中,我回忆起在麻省理工学院听课的收获,翻出了当时收集的“宝藏”课程资源,同时调研了一些国外年轻老师在顶尖高校开设的类似课程。我发现在成像模型理论方面,大家在参考这些“宝藏”的基础上已经有了比较共识性、系统性的课程体系,于是我自己的课程在成像模型理论方面只需要努力向他们“看齐”、沿用经典即可保证足够丰富且有深度的内容。自从深度学习开始在众多高层视觉问题的性能上取得突破以来,我一直在关注并思考它是否可以或者应该以什么样的方式来解决计算摄像的问题。当时在指导学生做科研的过程中,我发现从深度学习出现以后的时代开始接触计算摄像研究的同学,对于成像模型的熟悉程度远远低于深度学习。这就使得他们面对需要解决的问题,可能首先不会想到从图像形成的原理、过程和结果出发,而是会思考如何套用一个神经网络结构去适配手头的问题。从实践的角度,深度学习带给计算摄像问题求解的便利以及在部分问题上的性能突破是毋庸置疑的,而从理论的角度,成像模型作为对计算摄像研究“知其然知其所以然”的本源也需要在紧跟研究潮流的同时得到足够的关注。为此,我给自己的课程起了“计算摄像学:成像模型理论与深度学习实践”这样一个名字,一来这两部分在我看来对于深入理解和动手解决成像问题同等重要,二来这可以使我的课程在与国内外现有课程拥有一定区分度的基础上讲述清楚理论和实践对于成像的相互作用。

2022年的春季学期是我第四年在北京大学开设同名课程。在每年备课的过程中,我一直在思考同一个问题:这一节课介绍的计算摄像问题是否适合利用深度学习来求解,与传统方法相比深度学习的优势和劣势在哪里?根据当年最新的研究进展,我会和实验室的同学一起调研,并及时在课上补充相应的最新论文,与同学们分享我对于这个问题的一些新的思考。同时每年的课程我也会相应地更新实践题目,让大家动手拍拍数据,将传统的成像理论与当下的深度学习模型放到一起试试看,它们解决实际问题的有效性和鲁棒性如何?经过这几年的授课,我不敢说对计算摄像相关的成像模型理论与深度学习实践有了多么深入的见解,但也算是积累了一些不成熟的观点,并萌生了以文字的方式整理记录一下自己思路和心得的想法,希望分享给相关领域的科研人员与同学们。遂决定本学期的备课以书稿撰写的方式同步推进,希望能在学期结束的时候也完成第一版的书稿。

北京大学计算机学院“相机智能”实验室(http://camera.pku.edu.cn)博士后和研究生对本书相关图文资料的整理做出了直接的贡献,他们是(按照章节贡献顺序排序):费凡、于博涵、周鑫渝、杨思祺、崔轩宁、汤佳骏、吕游伟、翁书晨、杨溢鑫、洪雨辰、段沛奇、滕明桂、梁锦秀、常亚坤、马逸和周矗。由于本人及团队水平有限,疏漏之处在所难免,敬请各位专家、读者批评指正。

施柏鑫

于燕园