前言
随着谷歌的AlphaGo、IBM的Watson和百度的Apollo等人工智能产品的相继问世,人工智能成为大家热烈讨论的焦点话题。深度学习作为人工智能的核心技术之一,在学术界与工业界的积极推动之下,在计算机视觉、语音识别和自然语言处理等诸多领域得到了广泛的应用。
本书共分为两个部分。第一部分为1~6章,为基础理论,主要对深度学习的理论知识进行了详细的讲解,包括深度学习的发展历史以及研究现状、深度学习常用的相关数学基础,同时还对神经网络的架构、卷积神经网络、循环神经网络、生成对抗网络的理论基础进行了详细的讲解。第二部分为7~12章,为应用实践,主要是对深度学习中常用的Python库、深度学习框架进行了讲解,同时还对手写数字识别实例、自动生成图像描述实例、唇语识别实例进行了具体的代码实现。本书主要是以具体的实际案例为背景,通过理论和实践相结合的方式力求使读者能够对深度学习技术有更好的理解。
本书最大的特点是通过实际案例,深入浅出地对深度学习技术进行了详细的讲解,同时还结合了Caffe和TensorFlow的代码来对各种经典的神经网络模型进行了具体实现,读者可以通过运行各个应用案例的程序代码和实验数据,检验其演示效果。
为了能够完全理解并掌握本书的内容,读者所需具备的背景知识和基本能力包括:了解编程、能够读写代码。由于本书的代码示例、第三方库、包都是基于Python语言的,所以本书主要适用于有一定Python语言基础的读者。除了编程背景,懂得相关数学、统计的知识将有助于掌握本书的内容。相关的数学知识包括大学本科水平的微积分学(如求导)、线性代数知识矩阵符号的意义、矩阵相乘、求逆矩阵。这些知识主要是帮助读者理解一些算法中的求导部分,很多情况下就是一个简单函数的求导或基本的矩阵操作。能够理解概念层面上的数学计算将有助于对算法的理解。明白推导各步的由来有助于理解算法的强项和弱项,也帮助读者在面对具体的问题时,决定选择使用哪个方法。总而言之,本书适用于具有一定高等数学基础的理工科本科生或研究生,以及所有想要学习深度学习的读者和想要从事计算机视觉算法开发的技术人员。
本书由鲁远耀主笔编写,同时姜海洋、史鑫、温静、杨尧、李可心、徐征、栗冬杰、肖琦、李宏波、何杉参与了本书的整理工作。
策划编辑江婧婧为本书的顺利出版做出了重要贡献,在此表示深深的感谢。
最后,我们要感谢从事深度学习相关工作的专家、学者以及研究人员和工程师,本书的完成离不开他们的研究工作。同时,我们还要感谢在图书或网站上公开有用信息的各位同仁。
由于我们的水平有限,本书在内容取材和结构编排上难免有不妥之处,望读者不吝赐教,提出宝贵的批评和建议,我们将不胜感激。
编者
2021年3月