深入大型数据集:并行与分布化Python代码
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

译者序

在经历了二十余年互联网和移动互联网的发展之后,我们已经生活在一个大数据日益盛行的时代。数据早已不再是一台计算机、服务器可以存储下的,而需要成百上千台机器才能完成存储工作。数据规模也已经从以前的MB、GB级别,跨越到了TB、PB级别。并行化和分布式编程技能对开发人员的日常工作变得越来越重要,越来越多的开发人员正面临着因数据集太大而导致的问题。无论是社交、电商、短视频等如今日益流行的领域,还是人们的日常生活,都已经让我们越来越认识到大数据的价值。

在大数据的生态发展过程中,涌现了大量的新技术和框架,包括我们较为熟悉的Hadoop、Hive、Spark等,以及在大数据基础上再次发展起来的AI技术。应该说,这10年的技术发展浪潮都起源于我们可以开始处理以前无法想象的数据量。但是,无论新技术如何发展,底层的核心思想依然没有发生变化,那就是map和reduce的编程范式。如今以Hadoop为基石建立起来的大数据体系,正是map和reduce编程范式的体现。本书并没有介绍太多花哨的技术和框架,反而花费了大量篇幅讲解底层的map和reduce思想,再一步步拓展到如何用Python实现单机程序,如何用Hadoop、Spark等框架实现分布式计算,以及如何在云上的计算集群中处理更大规模的数据。这样的思路让人有“拨开迷雾,返璞归真”之感。

本书适合有一定Python编程基础,且希望掌握大型数据集处理能力的开发人员和数据科学家阅读。

感谢家人、朋友、同事一直以来对我的鼓励和支持。本译著难免会存在一些纰漏,恳请读者谅解并指出。