1.6 本书导航
如果你之前从未使用过Python,那你可能需要先阅读本书的第2章和第3章,我在这两章中简要介绍了Python的特点、IPython命令行和Jupyter notebook。
接下来,我简单介绍了NumPy的关键特性,附录A介绍了更高级的NumPy功能。然后,我介绍了pandas,本书剩余的内容则聚焦于用pandas、NumPy和matplotlib(用于可视化)处理数据分析问题。我已经尽量用循序渐进的方式串联全书知识,但偶尔会有章节之间的交叉,有时涉及的概念在之前没有介绍过。
尽管读者的最终工作目标不同,但任务大体可以分为以下几类:
与外部世界交互
读写各种格式的文件和数据存储。
数据准备
对数据进行清洗、整理、联合、正态化、重塑、切片、切块和转换,以进行分析。
数据转换
对多组数据集进行数学和统计操作,生成新的数据集(例如,通过分组参数连接成一个大表)。
建模和计算
将数据接入统计模型、机器学习算法或其他计算工具。
演示
创建交互式或静态的图形可视化或文本概述。
1.6.1 代码示例
本书大部分代码示例的输入形式和输出结果都会仿照其在IPython或Jupyter notebook中执行的样子进行排版:
当你看到类似的代码示例时,就是让你在编码环境中的In代码框输入代码,按回车键执行(Jupyter中是按Shift-Enter键)。然后就可以在Out代码框看到输出结果。
为了提高本书的可读性和简洁性,我修改了默认的NumPy和pandas控制台输出设置。例如,你在数值数据中会看到更多的精度数字。为了完全匹配本书的输出结果,在运行代码示例之前,可以执行如下Python代码:
1.6.2 示例数据
各章示例的数据集都存放在GitHub仓库(https://github.com/wesm/pydata-book)中。如果无法访问GitHub,请访问Gitee上的镜像地址(https://gitee.com/wesmckinn/pydata-book)。读者既可以使用Git版本控制命令行程序下载数据,也可以从网站的仓库下载数据的zip压缩包文件。如果遇到问题,可以到本书网站(https://wesmckinney.com/book)获取关于如何获得本书资料的最新指导。
如果读者下载好了包含示例数据集的zip文件,必须将压缩包完整解压到一个文件夹中。运行本书代码示例之前,还需要将终端路径切换到这个文件夹:
为了让所有示例都能重现,我已经尽力让GitHub仓库包含所有必需的东西,但仍然可能会有一些错误或遗漏。如果你发现了问题,请发邮件至book@wesmckinney.com。报告本书错误的最好方法是O'Reilly的勘误页(http://www.bit.ly/pyDataAnalysis_errata)。
1.6.3 引用惯例
Python社区已经广泛采取了一些常用模块的命名惯例:
也就是说,当你看到np.arange时,它引用的是NumPy中的arange函数。之所以这么做,是因为在Python软件开发过程中从类似NumPy这种大型包一次性导入全部内容(from numpy import*)是一种不好的做法。
[1]如今作为ActivateState平台的一部分,Komodo IDE是免费的。