机器学习:从公理到算法
上QQ阅读APP看书,第一时间看更新

1.3 机器学习思想简论

机器学习作为一个单独的研究方向,应该说是在20世纪80年代第一届ICML召开之后才有的事情。但是,广义上来说,机器学习任务,或者学习任务,一有人类就出现了。在日常生活中,人们每天都面临如何从自己采集的数据中提取知识进行使用的问题。比如,大的方面,需要观察环境的变化来学习如何制定政策使得我们这个地球可持续发展;小的方面,需要根据生活的经验买到一个可口的柚子或者西瓜,选择一个靠谱的理发师,等等。在计算机出现以前,数据采集都是人直接感知或者操作,采集到的数据量较小,人可以直接从数据中提取知识,并不需要机器学习。如对于回归问题,高斯在19世纪早期(1809)就发表了最小二乘法;对于数据降维问题,卡尔·皮尔逊在1901年就发明了主成分分析(PCA);对于聚类问题,K-means算法最早也可追溯到1953年Thorndike R L. Who belongs in the family. Psychometrika, 1953, 18(4): 267-276.。但是,这些算法和问题被归入机器学习,也只有在机器收集数据能力越来越成熟导致人类直接从数据中提取知识成为不可能之后才变得没有异议。

在过去的30年间,机器学习从处理仅包含上百个样本数据的玩具问题(toy-problem)起步,发展到今天,已经成为从科学研究到商业应用的标准数据分析工具。但是其研究热点也几经变迁,本书将从思想史的角度略加总结。

机器学习最早的目标是从数据中发现可以解释的知识,在追求算法性能的同时,强调算法的解释性。早期的线性感知机、决策树和最近邻等算法可以说是这方面的典型代表作。但是,1969年,Minsky指出线性感知机算法不能解决异或问题Minsky M, Papert S. Perceptons. Cambridge, MA: The MIT Press, 1969.。由于现实世界的问题大多是非线性问题,而异或问题可以说是最简单的非线性问题,由此可以推断线性感知机算法用处不多。这对于以线性感知机算法为代表的神经网络研究可以说是致命一击,直接导致了神经网络甚至人工智能的第一个冬天。感知机算法的发明人、神经网络先驱Rosenblatt于1971年因故去世,更加增添了这个冬天的寒意。

需要指出的是,很多实际应用并不要求算法具有可解释性。比如机器翻译、天气预报、卜卦算命等。在这种需求下,如果一个算法的泛化性能能够超过其他同类算法,即使该算法缺少解释性,则该算法依然是优秀的学习算法。20世纪80年代神经网络的复苏,其基本思路即为放弃解释性,一心提高算法的泛化性能。神经网络放弃解释性的最重要标志是其激活函数不再使用线性函数,而是典型的非线性函数如Sigmoid函数和双曲函数等,其优点是其表示能力大幅提高,相应的复杂性也极度增长。众所周知,解释性能好的学习算法,其泛化性能也要满足实际需求。如果其泛化性能不佳,即使解释性好,人们也不会选用。在20世纪80年代,三层神经网络的性能超过了当时的分类算法如决策树、最近邻等,虽然其解释性不佳,神经网络依然成为当时最流行的机器学习模型。在神经网络放弃解释性之后,其对于算法设计者的知识储备要求也降到了最低,因此,神经网络在20世纪80年代吸引了大批的研究者。

当然,也有很多实际应用要求算法具有可解释性,如因果关系发现、控制等。应该说,同时追求解释性和泛化性能一直是非神经网络机器学习研究者设计学习算法的基本约束。一旦一个算法既具有很好的解释性,其性能又超过神经网络,神经网络研究就将面临极大的困境。这样的事情在历史上也曾真实地发生过。1995年Vapnik提出了支持向量机分类算法,该算法解释性好,其分类性能也超过了当时常见的三层神经网络,尤其需要指出的是,其理论的分类错误率可以通过Valiant的PAC理论来估计。这导致了神经网络研究的十年沉寂,有人也将其称为人工智能的第二个冬天。在这期间,大批原先的神经网络研究者纷纷选择离开,只有少数人坚持研究神经网络。这个时间段对于机器学习来说,显然不是冬季。在这十年间,人们提出了概率图理论、核方法、流形学习、稀疏学习、排序学习等多种机器学习新方向。特别是在20世纪末和21世纪初,由于在搜索引擎、字符识别等应用领域取得的巨大进展,机器学习的影响力日益兴旺。其标志事件有:1997年Tom Mitchell机器学习经典教科书的出现Mitchell T. Machine learning. New York: MaGraw Hill, 1997.,2010年和2011年连续两年图灵奖颁发给了机器学习的研究者Valiant和Pearl。

三十年河东,三十年河西。2006年以后,神经网络突破了三层网络结构限制,大幅提高了模型的表示能力,又逢大数据时代相伴而生的高计算能力,神经网络化身深度学习,再次将分类能力提高到同时代其他模型无法匹敌的程度,有人将其称为人工智能的第三个春天。在机器学习的许多应用领域,深度学习甚至成为机器学习的代名词。虽然如此,时至今日,深度学习只是机器学习的一个分支,无论其沉寂或者过热,都不能逆转而只能加速全部机器学习本身应用越来越普及、理论越来越深入的发展趋势。

如今,机器学习算法每天被用来帮助解决不同学科不同商业应用的各种实际数据分析问题,相关的研究者每年也会针对相同或者不同的学习问题设计成百上千的新学习算法。面对一个学习任务,使用者经常面对十几个甚至几百个学习算法,如何从已有的算法中选择一个适当的方法或者设计一个适合自己问题的算法成为当前机器学习研究者和使用者必须面对的问题。早在2004年,周志华在国家自然科学基金委员会秦皇岛会议上做了一个名为“普适机器学习”的学术报告,其中曾明确指出:机器学习“以Tom Mitchell的经典教科书(McGraw Hill出版社,1997)为例,很难看到基础学科(例如数学、物理学)教科书中那种贯穿始终的体系,也许会让人感到这不过是不同方法和技术的堆砌”。因此,已有的机器学习算法是否存在共性,是否存在统一的框架来描述机器学习算法的设计过程,就变成了一个亟待解决的问题。本书将从知识表示的角度出发,来阐述我们对这一问题的研究结果,并据此讨论现存的机器学习算法的适用范围。