TensorFlow 2.0神经网络实践
上QQ阅读APP看书,第一时间看更新

第1章 什么是机器学习

机器学习(Machine Learning,ML)是人工智能的一个分支,我们通过定义算法,以训练一个可从数据中描述和抽取有价值信息的模型。

ML在工业环境中的预测性维护、医疗应用中的图像分析、金融及许多其他行业的时间序列预测、出于安全目的的人脸检测和识别、自动驾驶、文本解析、语音识别、推荐系统等数不胜数的领域都有着令人惊叹的应用,我们可能每天都在不知不觉中使用着它们!

想想看你的智能手机的相机应用程序——当你打开该应用程序,并将摄像头对准某个人时,你会在这个人的脸部周围看到一个方框。这怎么可能呢?对于计算机来说,图像仅仅是三个叠在一起的矩阵的集合。一个算法如何检测出表示人脸的像素的特定子集呢?

很有可能是相机应用程序使用的算法(也被称为模型)已经被训练好了,用于检测这种模式。此项任务被称为人脸识别。人脸识别可以由机器学习算法来解决,该算法可被归为有监督学习的范畴。

ML通常分为三大类,我们将在以下部分中对所有内容进行分析:

·有监督学习

·无监督学习

·半监督学习

每类方法都有自己的特点和算法集,但它们都有一个共同的目标:从数据中学习。从数据中学习是每个ML算法的目标,特别是学习将数据映射到(预期)响应的未知函数。

数据集可能是整个ML流水线中最关键的部分。它的质量、结构和大小是深度学习算法成功的关键,我们将在接下来的章节中看到。

例如前面提到的人脸识别,可以通过训练一个模型来解决,让它查看成千上万的带标签的示例,从而使算法学习到对应于我们所说的人脸的“特定的输入”。

如果在不同的人脸数据集上训练,同样的算法可以获得不同的性能,我们拥有的高质量数据越多,算法的性能就越好。

本章将介绍以下主题:

·数据集的重要性

·有监督学习

·无监督学习

·半监督学习