序
数据分析的方法经历了从定性分析到统计分析,再到大数据支持的商业智能的过程,而背后的工具也历经了多轮的迭代。以日常应用最为广泛的Excel为例,使用其自带的数据分析功能已经可以完成很多专业软件才有的数据统计和分析,包括相关系数、协方差、各种概率分布、抽样与动态模拟、总体均值判断、均值推断、线性及非线性回归、多元回归分析等内容。但是当我们考虑更加定制化的需求,或者实现更为专业的统计学模型,或者对于时间变量有更高的分析需求时,还需要在Python或者R这样的工具中寻找支持。特别是像Python中Pandas这样的数据分析包,纳入了大量库和一些标准的数据模型,提供了高效操作大型数据集所需的工具,提供了大量快速便捷地处理数据的函数和方法。
本书系统地介绍了和我们日常工作息息相关的数据分析工具的使用范式。以目前使用范围最广的Python工具为主线,以Pandas包在数据提取、数据转换、文本与日期处理、数据处理、数据重塑功能为基础内容,将Python各类函数功能和Excel的使用结合起来。本书的内容从基础的Python程序设计概念出发,覆盖了所有与数据分析相关的细节,更加难得的是将与Excel相连接的部分进行了重点阐述,能够帮助Python的初学者很快实现从Excel到Python的进阶。
在Python之外,作者还用了两章的篇幅介绍了如何使用xlwings和openpyxl这样贴近日常办公的工具,结合与Python的Pandas或NumPy包的交互,实现了高效率的数据分析。同时在此基础上,最后两章对数据处理自动化和Excel+Python的综合应用进行了详细介绍,向本书的读者打开了智能化地开展数据分析的一扇大门,使来自不同领域的读者都可以从这本书中找到满足自身工作需要的数据分析途径。本书适合具有一定数据分析和Python编程基础的读者阅读,也适合作为高等院校、IT培训机构的教材,还可作为IT专业人士的自学参考书。
张大力
上海交通大学安泰经管学院中美物流研究院副教授
英国南安普顿大学数学学院运筹学博士