Python数据处理:如何又快又好
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

译者序

在大数据时代,许多人都会通过各种渠道与数据相遇,例如,我们平常浏览的新闻、博客、纪录片、社交网站及教学视频等,均以数据来支持其报道或论述。另外,还有很多广告、推荐算法与追踪技术,也特别依赖数据。

本书要讲解的正是与数据有关的两个重要话题:一是为什么要自己来整理数据,二是为什么要用编程手段整理数据。

数据是由人收集并整理的,因此难免带有成见。自己整理数据,并不是要一味否定别人的观点,而是为了学会从多种角度观察同一数据,并在许多数据之间进行对比。每个人的想法、立场与经验各有区别,把大家的观点汇聚起来,让这些观点彼此沟通、碰撞,更有可能揭示事件的全貌。

数据的来源与格式繁多,其中有些数据还带有错误与缺陷,为了整理数据,我们需要一套高效的工具来评估数据质量,把许多互补的数据整合,并利用各种指标与统计手段分析数据。最后,通过有力的可视化图表呈现其中的关键信息,以支撑自己从数据中得出的观点。

与手工整理相比,用编程手段整理数据可以更好地获取原始信息,修正其中的问题,并利用其他数据来予以补充。编程语言,尤其是Python这样容易入门的编程语言,让我们能够迅速写出脚本,用自己的想法实验数据,以求从各个方面做出分析,从而解答我们所关注的问题。而且Python语言包含丰富的程序库,使我们能够便利地读取、转换、分析并呈现数据。另外,编程手段能够处理大规模的数据,能够把相同的处理逻辑反复运用到不同的项目,而且能跟版本管理系统结合,让你更有效地完善自己的分析方法并与其他人交流。从这个意义上讲,大家都应该学一学编程。

本书以共享单车及贷款等数据为例,详细讲解了用Python来整理数据的每一个环节,全职的开发者与从事其他工作的人都适合阅读本书。你可以结合自身的学习过程,改编书中的代码,逐渐积累起自己的一套程序库及工作流程,以整理各种与生活及社会现象有关的数据,从而更加全面地了解世界。

在翻译本书的过程中,我得到了机械工业出版社华章分社各位编辑的帮助,在此深表谢意。

由于译者时间仓促、水平有限,错误与疏漏在所难免,请大家给予批评和指教。

爱飞翔