1.1.1 什么是机器学习
机器学习是人工智能的一个分支,是现阶段解决很多人工智能问题的主流方法,被广泛应用于图像识别、语音识别、自然语言处理、信息推荐、天气预测等领域。自计算机诞生以来,人们从来没有停止过探寻机器智能的脚步。机器能否像人类一样拥有学习能力呢?1948年,计算机科学家阿兰·图灵(Alan Turing)在Mind上发表论文Computing Machinery and Intelligence,提出著名的“图灵测试”,由此开始了人工智能的先河。1956年,塞缪尔(Arthur Samuel)设计了一个具有自学习能力的跳棋程序,可以在不断人机对弈的过程中提升自己的棋艺,1959年,他提出了“机器学习”的概念,并将其定义为:the field of study that gives computers the ability to learn without being explicitly programmed,即此研究领域是计算机在不被明确编程的情况下,赋予它学习能力。此后,计算机科学家为机器战胜人类这个目标不断尝试,终于在2016年3月谷歌的AlphaGo年度围棋挑战赛,AlphaGo以4∶1的绝对优势战胜围棋世界冠军李世石九段。由此引发全球机器智能能否超越人类的热议,机器学习算法再次成为人们追逐的热点。
机器学习的研究方向主要分为两类:第一类是传统机器学习方法的研究,主要研究学习机制,注重探索模拟人的学习机制;第二类是针对大数据,研究如何有效利用信息,注重从海量数据中获取隐藏的、有效的、可理解的知识。前者侧重于算法理论的研究,后者侧重于数据的处理。
机器学习的任务就是探索研究机器模拟人类智能的高效算法,使其能代替人类解决实际问题。例如,利用机器学习可以帮助人类自动识别出手写数字、识别哪些是好瓜哪些是坏瓜、哪些是垃圾邮件哪些是正常邮件、预测房价的走势等。手写数字识别如图1-1所示,正常邮件和垃圾邮件的词云如图1-2所示,识别好瓜和坏瓜如图1-3所示。
图1-1 手写数字识别
图1-2 正常邮件和垃圾邮件词云
如果要从一堆西瓜中将好瓜挑选出来,有经验的瓜农总结出的经验是敲声浊响、纹理清晰、根蒂蜷缩的瓜为好瓜,机器学习就是模拟人类经验来识别好瓜和坏瓜的,那具体如何做呢?我们把一些好瓜的经验总结成机器学习中的“特征”列举出来,如图1-4所示。
图1-3 识别好瓜和坏瓜
图1-4 西瓜的特征
接下来,我们分别统计好瓜中色泽为“青绿”“乌黑”“浅白”所占的比例,根蒂为“蜷缩”“稍蜷”“硬挺”所占的比例,敲声为“浊响”“沉闷”“清脆”所占的比例,等等,然后依据这些统计数据建立一个数学模型,可以理解为是一个数学函数,根据这个数学模型去判断具有这些特征的瓜是好瓜还是坏瓜。根据这些特征建立模型的过程就是机器学习的过程,根据模型去识别好瓜和坏瓜的过程就是机器学习中的分类问题。
机器学习是一门交叉学科,涉及计算机科学、模式识别、概率论、统计学等多个学科,是人工智能学科中最具智能特征,最前沿的研究领域之一。