前言

基于选择注意力机制的显著性检测技术已经成为计算机视觉和图像领域的研究热点，广泛应用于目标检测、图像分割、图像压缩、图像检索和场景分析等领域中。显著性检测模型的本质是让计算机模仿人类视觉系统去理解和分析图像，然而这是一件非常困难的事情，面临着许多挑战。人类视觉系统极其复杂，处理原理和具体过程仍然没有完全被研究人员所掌握，本身就具有巨大的挑战。因此，显著性模型目前仍然没有统一完整的理论框架，有待进一步研究和完善。

随着互联网的普及，传统的休闲娱乐方式不再是娱乐的主体，人们更多地选择线上的娱乐方式和通信工具。在这个背景下，社交平台应运而生，图片社交已经成为社交平台的主流功能。图片社交带来了海量的社交媒体图像，有限的计算资源如何对其进行快速有效的处理已经成为亟待解决的问题。本书研究的主要动因来自社交网站的图片处理压力，本书以显著性检测技术为切入点，选择图像显著区域提取方法为主要研究内容，并以图像分类机器视觉任务作为显著区域提取方法的应用延伸，具有非常重要的理论意义和应用价值。本书的具体研究内容概括如下。

（1）针对目前尚没有面向社交媒体图像的显著性数据集现状，构建了此类显著性数据集，详细论述了数据集的图像来源、图像的筛选原则、图像的标注及数据集的统计分析。为了验证新建数据集的性能，对新建数据集和目前流行的7个显著性数据集进行性能评测。实验结果表明，新建数据集具有显著区域尺寸丰富、与图像边界连接度高、不具有明显中心先验、显著区域与图像的颜色差异小等优点。此数据集为显著性检测研究提供了新的测试对象，而且标签信息也为新的显著区域提取方法提供了条件。

（2）研究表明，单纯依赖图像底层特征进行显著区域提取已经不能取得令人满意的效果，越来越多的提取方法转向机器学习和高层语义。基于此，充分考虑社交媒体图像带有语义标签的特点，提出了基于条件随机场模型的显著区域提取方法。该方法同时考虑图像外观特征和标签上下文信息，缩小了图像高级语义和低级特征之间的距离。

（3）深度学习技术正广泛应用于图像的显著区域提取任务，虽然基于深度学习特征的显著区域提取结果整体优于基于人工设计特征提取结果，但提取效果仍存在个体图像差异。基于此，提出了面向社交媒体图像的基于多特征的显著区域提取方法，既包括深度学习特征又包括人工设计特征。采用的深度学习特征包括卷积神经网络特征和标签语义特征。此外，将经典的基于人工设计特征提取方法的结果作为基于深度学习特征提取结果的有益补充，提出了基于标签和图像外观的显著图动态融合方法，此融合方法依赖于个体图像。

（4）根据图像是否包含显著区域，将图像库分为场景类图像库和对象类图像库。对于场景类图像库，提出了多环划分的特征池化区域选择方法和多视觉词硬编码方法，两种方法相结合能够对场景类图像库进行快速分类。对于对象类图像库，提出了基于显著性的软编码方法，既突出了显著区域对于对象类图像库的重要性，又体现了局部性空间约束对编码一致性的重要作用。实验结果证明了显著性能够为图像分类方法提供新思路。

本书的出版得到北京市信息服务工程重点实验室、国家自然科学基金项目“无人车多视视频信息获取与定位关键技术”（项目编号：61871038）和北京市属高校一流专业软件工程专业建设项目的资助。在本书的出版过程中，得到了北京联合大学机器人学院领导和同事的大力支持与帮助，电子工业出版社的许存权编辑在本书的编写过程中提出了很多宝贵意见和建议，在此向他们一并表示深切的感谢。

本书对从事计算机视觉工作的相关人员具有一定的借鉴与启发意义，但面对信息技术和人工智能的大势洪流，我自知自己学识的匮乏和局限，我的所学所研更像是学海浮萍。囿于我的水平，故恳请各位同行斧正。

作者