机器学习实践指南:案例应用解析
上QQ阅读APP看书,第一时间看更新

前言

为什么要写这本书

自从计算机问世以来,人们就想知道,机器是否能像人类一样具有学习能力。1959年,美国的塞缪尔设计了一个下棋程序,这个程序具有学习能力,它可以在不断的对弈中提高自己的棋艺。4年后,这个程序战胜了设计者本人。又过了3年,这个程序战胜了美国一个保持常胜不败战绩8年之久的冠军。不难看出,这个程序向人们展示了机器学习的能力。如果我们理解了计算机学习的内在机制,即怎样使它们根据经验来自动提高,那么影响将是空前的。

机器学习作为一门多领域交叉学科,在近20年里异军突起。机器学习涉及概率论、统计学、代数学、微积分、算法复杂度理论等多门学科,通过设计和分析一些让计算机可以自动“学习”的算法,人类对机器学习的不断研究开辟出许多全新的应用领域,使智能机器的计算能力和可定制性上升到新的高度。

在国外,机器学习技术大量应用于军事领域,X-47B验证机已经完成首飞,这款由诺斯罗普·格鲁曼公司为美国海军研制、外形极似B-2战略轰炸机的飞机,是世界上第一架完全由计算机控制的“无尾翼、喷气式无人驾驶飞机”,它意味着在未来战场,将会出现无人机先出动,打击对方的防空阵地、雷达、机场等重要目标,而有人机编队则在战场外,负责拦截对方空中支援的战斗机,这将彻底改变人类战争的方式。X-47B代表了人类在机器学习研究方面的巨大进步,是智能机器全面参与人类战争的标志,代表了人类在模仿自己智能水平方面进入了一个新的阶段,同时也给机器学习带来了全新的发展机会。

在国内,机器学习正展现出巨大的潜力,在计算机领域中扮演着日益重要的角色。机器学习的应用领域包括数据挖掘、语音识别、图像识别、机器人、生物信息学、信息安全、车辆自动驾驶、遥感信息处理、计算金融学、工业过程控制、智能家居等。在不久的将来,机器的学习能力更接近人类智能:计算机能通过学习医疗记录,获取治疗新疾病最有效的方法;住宅管理系统可分析住户的用电模式,以降低能源消耗;个人助理软件则可跟踪用户的兴趣,为其选择最感兴趣的在线信息。

随着机器学习技术在国内外的大量应用,机器学习工程师成了备受关注的人才。Google、Microsoft等公司早已经尝到了机器学习商业化带来的甜头,所以对机器学习人才提出了大量的需求。国内很多知名的公司如阿里巴巴、淘宝等为迎接大数据时代带来的挑战,已经大量引进机器学习方面的人才。百度、搜狗等由于拥有能与Google竞争的搜索引擎,早已经开始了机器学习人才的猎取。奇虎作为中国领先的互联网软件与技术公司,其重头产品360安全卫士成为网络安全领域的领先品牌,也对引进机器学习研发工程师表现出了强烈的渴求。

现在中国已经悄然兴起了机器学习的学习热潮,掌握机器学习的工程师成为了各大IT巨头手中疯抢的“香饽饽”。机器学习成为了进入国内知名IT公司和跨国IT巨头比如Microsoft、Google的敲门砖,良好的发展势头和较高的职业薪水,吸引着越来越多的软件工程师和数据分析师涌入机器学习领域。

但是,机器学习的入门门槛较高,尤其对研究者的数学理解能力有较高要求,相对于数据结构、计算机算法以及系统架构知识来说,机器学习是一个全新的领域,也是一个全新的高度。希望本书能帮助读者进入机器学习的精彩世界。

理解机器学习算法往往要从理解它涉及的数学公式和数学知识开始,本书作者也是通过攀登数学这座大山一步步走入机器学习领域的,对此深有体会。打好数学基础是非常必要的,一旦你掌握了数学分析、线性代数、概率与统计、统计学、离散数学、抽象代数、数学建模等数学理论后,理解机器学习算法就容易多了,就不会畏惧那些让人生厌和烦琐的数学符号和数学公式,反而会喜欢上这些数学公式,并尝试亲自推导一番。

读者对象

□ 开发人员。在理解机器学习算法的基础上,调用机器学习的中间库进行开发,将机器学习应用于各种场景,如数据分析、图像识别、文本分类、搜索引擎、中文智能输入法等。

□ 架构师。在理解机器学习算法的基础上,适应现代云计算平台的发展,将机器学习算法应用在大规模并行计算上。同时,机器学习算法是大数据分析的基础,如神经网络、SVM、相似度分析、统计分析等技术。

□ 机器学习的初、中级读者。人类对机器学习的研究只是一个开始,还远远没有结束。近年来,机器学习一直保持着强劲的发展势头,并拥有广阔的发展前景,而不同于某些软件开发领域中的程序语言或架构知识。掌握机器学习有一定的难度,属于“金领”行业,对读者来说,掌握机器学习知识就意味着更高的薪水、更具前景的职业。

如何阅读本书

全书分为准备篇、基础篇、统计分析实战篇和机器学习实战篇。机器学习算法建立在复杂的计算理论基础之上,并涉及多门数学学科。抽象的理论加上成堆的数学公式,对部分读者来说,带来了极大的挑战,也许会将渴求学习的人们挡在门外。针对这种情况,本书力求理论联系实际,在介绍理论基础的同时,注重机器学习算法的实际运用,让读者明白其中的原理。

准备篇中首先介绍机器学习的发展及应用前景,使读者对其产生深厚的兴趣,同时也介绍目前常用的科学计算平台和本书将用到的工程计算平台,使读者消除对机器学习的畏难心理。这些平台的使用,也降低了机器学习软件实现的难度。

基础篇将对数学知识基础、计算平台应用实例进行介绍,推荐配置学习的数学教科文档,介绍计算平台开发的基本知识,应用这些平台实现计算应用。

最后,本书将针对统计分析实战和机器学习实战两个部分帮助读者建立机器学习实战指南。还将大量应用计算平台对统计分析以及机器学习算法,并进行软件的实现和应用。本书附有效果图,使读者对机器学习的应用和理论基础有形象的理解。

勘误和支持

由于作者的水平有限,编写的时间也很仓促,书中难免会出现一些错误或者不准确的地方,有不妥之处恳请读者批评指正。您如果遇到任何问题,或有更多的宝贵意见,欢迎发送邮件至我的邮箱myhaspl@myhaspl.com,很期待能够收到您的真挚反馈。此外,本书的代码及相关资源请在华章网站(http://www.hzbook.com/)本书页面上下载。

致谢

我首先要感谢伟大的电影《机械公敌》及其主角威尔·史密斯,这位美国演员主演了《当幸福来敲门》、《拳王阿里》、《绝地战警》、《全民超人汉考克》、《黑衣人》、《机械公敌》等影片,他曾获奥斯卡奖和金球奖提名。他主演的《当幸福来敲门》让很多人理解到了幸福是什么,而《机械公敌》让我看到了人工智能的未来,我相信《机械公敌》描述的以下场景一定能在将来实现:

公元2035年,智能型机器人已被人类广泛利用,作为最好的生产工具和人类伙伴,机器人在各个领域扮演着日益重要的角色。而由于有众所周知的机器人“三大安全法则”的限制,人类对这些能够胜任各种工作且毫无怨言的伙伴充满信任,它们中的很多甚至已经成为了一个家庭的组成成员。

但是我不希望看到电影中的NS-5型机器人追杀和控制人类的场景在将来某一天上演,这将是人类的悲剧,我想这并不是人工智能学者希望看到的。也许将来有一天,人工智能技术很成熟了,机器人与人之间的关系可以作为一个社会伦理和哲学问题被大家热议,机器人也能和人类一起参与讨论自己在人类社会中的角色和定位。

我衷心感谢机械工业出版社华章公司的编辑们,由于他们的努力和远见,让我顺利地完成了全部书稿。最后我还要感谢家人的大力支持和无私奉献,正因为有他们的关心和照顾,我才有足够的时间和精力来完成本书的撰写工作。

谨以此书献给热爱机器学习技术的朋友以及喜欢威尔·史密斯的影迷。

麦好(Myhaspl)

中国,广东,2013年12月