前言
人类通过一对生物相机——眼睛,观察、感知、情境化和理解我们周围的环境。虽然眼睛无法记录、存储和分析视觉数据,但它们可以帮助我们看到物体,在不同的环境中定位自己,并真正享受周围美丽的环境。生物视觉的魅力令人着迷,试想一下,如果汽车、无人机、机器人、卫星也拥有这样一双眼睛,在相机、算法和数据的帮助下实现各种功能,那么我们的生活和工作将变得更加轻松与便利。然而,视觉世界固有的复杂性使机器拥有“眼睛”极具挑战性,一个真正的视觉系统必须能够在任何方向、任何光照条件下、任何类型的其他对象遮挡等复杂环境下“看到”给定对象,并提取有意义的信息。自 20世纪 60年代以来,这个问题受到了无数优秀的学者和科研人员的关注,最终发展为计算机科学人工智能领域的一个重要分支——计算机视觉。
计算机视觉是一个跨学科领域,使机器能够从视频、数字图像和其他形式的视觉输入中获取丰富的信息。人工智能帮助计算机思考,而计算机视觉帮助计算机感知和理解环境。近年来,随着算力(以GPU、云计算为代表)的快速提升,以及以深度神经网络为代表的深度学习技术的突破性发展,计算机视觉已在各行业得到了广泛应用。
·交通:自动驾驶、障碍物感知、路口监控、事故定责等。
·零售和制造:物品质量或数量监控、条码分析、库存管理、客户行为跟踪等。
·国防和安全:地雷探测、面部探测、武器缺陷探测、无人驾驶军用车辆等。
·农业:受损作物检测、自动农药喷洒、牲畜数量检测、作物分级和分拣等。
·医疗:疾病发现、精准诊断、CAT/MRI重建、失血量测量、精准医学影像等。
·保险:资产分析、损坏分析、损失金额估算、自动化索赔等。
·时尚:基于图像的服装分析、时尚趋势预测、品牌识别等。
·媒体:假新闻识别、品牌曝光监控、影视虚拟回放、广告投放分析等。
·智能手机:全景构建、面部检测、表情检测、图像搜索等。
随着计算机视觉在众多行业的快速发展与应用,国内外对于计算机视觉应用型人才的缺口也逐年增大。究其原因,一方面,源于近几年各行业对计算机视觉领域人才的需求快速增加;另一方面,通过对国内诸多计算机专业学生、互联网工程师的走访调研发现,虽然大家对计算机视觉具有浓厚的兴趣,但普遍认为它的入门门槛较高,需要掌握人工智能相关的多种模型算法才能初窥门径,最后在复杂的数学公式推导面前望而却步。市面上大多数计算机视觉方面的书籍也都更注重理论基础的讲解,案例方面的书籍相对较少。无可厚非,理论基础决定上层建筑,但案例实战是应用型人才应该具备的素质,也是帮助读者更好地理解理论知识的最佳方式。为此,达内时代科技集团将以往的与计算机视觉相关的项目经验、产品应用和技术知识整理成册,通过本书来总结和分享计算机视觉领域的实践成果。我们衷心希望本书能在读者心中种下一颗实践的种子,用计算机视觉重塑未来!
本书内容
本书围绕计算机视觉在农业、医学、工业等领域的案例(植物病虫害检测、眼底血管图像分割、口罩佩戴检测等)进行讲解,理论结合实际,采用大量插图,辅以实例,力求深入浅出,帮助读者快速理解计算机视觉若干模型和算法的基本原理与关键技术。本书既适合高职院校和本科院校的学生学习使用,也适合不同行业的计算机视觉爱好者阅读。在内容编排上,本书的每章都具备独立性,能够独立地解决一类实际问题,读者可以根据自身情况进行选择性阅读;同时各章之间循序渐进地形成有机整体,使全书内容不失系统性与完整性。本书包含以下章节。
·第1部分(第1~7章):基于OpenCV的传统视觉应用。该部分介绍传统视觉应用的基础算法,如二值化算法、Canny边缘检测算法、BRIEF算法、ORB算法等,以及轮廓查找、全景图像拼接、双目测距等案例的应用。
·第2部分(第8~21章):基于机器学习和深度学习的视觉应用。首先通过手写数字识别、基于 HOG+SVM 的行人检测等案例介绍传统视觉与机器学习结合的算法,包含SVM模型的原理、图像处理的原理、HOG算法、滑动窗口实现流程等;然后重点讲述基于深度学习算法的计算机视觉技术,包括卷积神经网络、目标检测、语义分割、GAN模型、视频内容分析等,围绕水果识别、病虫害检测、相似图像搜索、人脸口罩佩戴检测、图像自动着色、眼底血管图像分割等视觉领域中的常见案例,强化上述模型的应用实践。
·第3部分(第22~25章):基于深度学习的新兴视觉应用。该部分介绍市场关注度较高的几个新兴视觉应用的相关原理及实现方法:第一,使用3D-R2N2算法进行三维空间重建;第二,通过 MobileNet-SSD 模型集成 L1 视频稳定算法实现视频稳定;第三,使用YOLOv3-Tiny模型结合DeepSORT模型实现车辆检测、跟踪和计数;第四,基于深度神经网络的实时图像和视频的风格迁移。
为了帮助读者提高实战技能,本书提供的案例代码可以在达内时代科技集团自主研发的AIX-EBoard人工智能实验平台上部署与实施。该实验平台具有操作方便、适于教学的特点,建议各院校和培训机构在组织学生进行人工智能编程学习时采用。如果是个人读者阅读本书,也可以在普通计算机上部署与实施案例的代码,不受影响。
另外,更多的视频等数字化教学资源,以及企业级综合教学项目(如智慧停车场管理系统、智慧景区管理系统和智能考勤打卡系统)的最新动态,读者可以通过关注微信公众号获取。
致谢
本书是达内时代科技集团人工智能研究院团队通力合作的结果。全书由郑政博士、冯华、刁景涛策划、组织并负责统稿,参与本书编写工作的有杨瑞红、徐理想、裴广战、吴飞、谷志伟,以及院校老师陈斌、杜丽萍、纪兆华、穆俊、覃凤清、宋磊、孙福才、谭鹤毅、田文涛、向昌成、杨成福、张楠、庄凯等,他们对相关章节材料的组织与选编做了大量细致的工作,在此对各位编者的辛勤付出表示由衷的感谢!此外,感谢达内时代科技集团技术研发中心的技术总监赵梓安、大数据总监金锋为本书案例和技术细节的完善做出的贡献。
特别感谢曾经指导和支持过达内时代科技集团企业级综合教学项目,或者为本书的编写提出宝贵建议的众多专家和前辈,包括加拿大西安大略大学谢海鹏博士团队,中国科学院计算机网络信息中心吴开超博士团队,武汉大学计算机学院黄浩教授、甘庭博士团队,以及湖州师范大学王超博士团队等。
感谢达内时代科技集团CEO、未来教育研究院院长孙滢对本书从立项讨论到编写出版全过程的倾心关注和大力支持,她不忘教育初心、坚守育人使命的情怀为本书的创作提供了强大的驱动力。
感谢电子工业出版社的老师们对本书的重视,他们一丝不苟的工作态度保证了本书的质量。
为读者呈现准确、翔实的内容是编者的初衷,但由于编者水平有限,书中难免存在不足之处,敬请专家和读者给予批评指正。
作者
2022年2月