人工智能入行实战:从校园到职场
上QQ阅读APP看书,第一时间看更新

2.1.2 机器学习的分类和应用

机器学习模型可以分为有监督学习模型和无监督学习模型。上一节介绍的模型就是有监督学习模型,它有一个标签(label)。无监督学习模型则是指其训练数据是没有标签的。聚类就是一种典型的无监督学习模型。聚类是按照样本本身的一些性质,把特征相同的那些样本聚集在一起。实际上,在聚集完成后,我们不知道都是什么类,而且在聚集之初,我们也完全不知道聚集的结果是什么样子。有监督学习模型可以分成两个部分,一个是分类模型,另一个是回归模型。这两个模型的区别主要在于预测结果是连续的还是离散的。回归模型的输出结果是一个连续值,也许是3250,也许是2780,总而言之是一个范围内的任意值。而分类模型的预测结果是几个有限的离散值中的一个,如垃圾邮件过滤器就是一个分类模型。每收到一封邮件后,垃圾邮件过滤器就会给该邮件打一个标签,即要么是垃圾邮件,要么不是垃圾邮件,不可能是第三种。所以垃圾邮件过滤器的输出是有限个。

另外,线性回归、逻辑回归、决策树、支持向量机、朴素贝叶斯等属于有监督模型的范畴;而k均值聚类和谱聚类等则是无监督模型。当然机器学习模型还有很多,这里只是举几个例子。

机器学习的应用领域非常广泛。例如,在金融领域有一个专有名词Fintech,指的是将以前很多人工的工作通过机器学习模型来自动化完成,常用于风控、风险评估、贷款评估等。这些工作现在在北美已经大规模采用机器学习模型来做了,国内的普及度相对较低,但是近些年来国内金融业发展迅速,未来自动化的工作会越来越多。除此之外,数据挖掘、电商的各种推荐系统(包括用户画像),还有工业界的异常检测等,都是机器学习的重要应用领域。