前言
为什么要写这本书
不知从何时开始我们已周身没入大数据时代的潮流,不知不觉被卷入了大数据时代。
无论是每天上网看网页、聊QQ、聊微信,或者登录银行、网购、买票,或者出行、投宿,甚至是出入任何公众场合、驾车、用水用电……我们无时无刻不在生产着各种数据。而同时我们也在消费着其他人生产的数据,我们使用的众多家电产品,每一个设计细节都融入了设计者对用户体验数据的调查与分析;我们使用的每一部手机、每一台电脑,每一个部件的产出都融入着多得无法想象的指标数据控制下的生产与监控;我们访问的每一个网页、每一个软件,每一次享受到的贴心的产品改动和服务的升级,无不浸透着无数的数据汇集与精细的分析和反馈。这是一场慢慢到来的、贯穿所有产业的革命,这是一次润物细无声的各行业精耕细作的开端。
不管我们是不是愿意,不管我们有没有意识到,我们现在已经身处大数据时代的奇点,而未来要迎接的是大数据奇点爆炸给我们带来的冲击力。我们需要力量来驾驭浪里的航船,我们需要乘风破浪前进的动力。
在这一次远航中,我们不必担心自己的能力水平无法感知数据这种磅礴之力的气魄,不必担心晦涩难懂的公式定理会让我们感到阻力。
请相信我,这是一本通俗易懂的大数据图书,这是一本轻松愉悦的数据挖掘和机器学习的读本,这是一本没有门槛的机器学习实战手册。让我们一起扬帆远航吧!
本书特色
从行为脉络来看,本书基本上是从数据统计、数据指标理解、数据模型、聚类/分类与机器学习、数据应用、大数据框架补充知识,以及扩展讨论这样的角度来层层深入完成的。
这种方式会给读者比较好的带入感,让大家——尤其是不擅长数学的读者降低对大数据与机器学习算法的恐惧感。如果读者朋友对排列组合、统计分布这些基础知识比较了解,完全可以考虑跳过这些部分直接去读后面更感兴趣的内容。
为了调节阅读气氛,我们还尝试加入了一些漫画插图。为了让读者朋友能够更快地进行实践,我们几乎在每一个算法讲解后都配有Python或者SQL语言的实现部分。相信这些能够帮助大家更快、更轻松地阅读本书。
读者对象
(1)对大数据感兴趣但是完全不了解的技术人员。
(2)对机器学习和数据挖掘比较感兴趣的技术人员。
(3)大数据初级从业人员。
如何阅读本书
本书一共分为18章。
第1章~第5章为入门所需基础知识及对数据指标运营的阐述。
第6章~第10章是对数据挖掘基础知识与算法的介绍。
第11章~第18章为生产应用与高级扩展。
其中,第1章~第15章正文内容,以及第17章、第18章的正文内容由高扬编写。
全书所有的Python代码由卫峥编写与补充整理。
第16章、附录全部由尹会生编写。
全书所有的漫画插画由万娟创作完成。
勘误和支持
由于水平有限,编写时间仓促,书中难免会出现一些错误或者不准确的地方,恳请读者批评指正。如果你有更多的宝贵意见,欢迎扫描下方的二维码,关注“奇点大数据”微信公众号和我们进行互动讨论。关注大数据尖端技术发展,关注“奇点大数据”。
同时,你也可以通过邮箱77232517@qq.com联系到我,期待能够得到你的真挚反馈,在技术之路上互勉共进。
致谢
特别感谢:万娟女士为本书做的漫画插画内容。
万娟女士现任深圳星盘科技有限公司UI设计师,是我在多年工作中遇到过的最敬业的UI设计师之一,在2013年一起合作的过程中给我留下了非常深刻的印象。
她多次参加全国和国际艺术比赛,曾获得全国青少年绘画大赛铜奖,中国–新加坡国际青少年绘画比赛优秀奖,以及全国大学生工业设计大赛三等奖。从小酷爱绘画,理想是开一个属于自己的画室。
她给我留下的最深刻的印象用两个词可以描述:一个词是“敬业”,不管是在过去共事期间的合作,还是在为本书创作插画的过程中,为了保证进度带病坚持创作,都让我非常感动;另一个词是“唯美”,不仅人长得美,作品设计风格也透出现代与时尚的气息。
此外还要对所有支持和关心本书成书的各界朋友表示由衷的感谢:
衷心感谢北京邮电大学软件学院杨谈老师对本书的审校工作。
衷心感谢腾讯公司数据分析师彭瑶女士对本书的审校工作。
衷心感谢重庆工商大学黄辉老师、杨艺老师对本书的大力支持。
衷心感谢机械工业出版社华章公司对本书的支持与帮助。
衷心感谢“奇点大数据”微信群友对本书的关注与支持。
高扬