利用Python进行数据分析(原书第3版)
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第1章
准备工作

1.1 本书内容

本书讲解利用Python进行数据操作、处理、清洗、规整等的基本要点和具体细节,目标是介绍Python编程语言及其用于数据的库生态和工具,掌握这些知识可以让你成为一名称职的数据分析师。虽然本书书名中包含“数据分析”,但内容重点是Python编程、库和工具,而不是数据分析方法论。本书主要介绍数据分析需要用到的Python编程知识。

本书第1版在2012年出版后,人们开始使用“数据科学”一词笼统地描述从简单的描述性统计到更为复杂的统计分析及机器学习的所有工作。自2012年起,Python开源数据分析(或数据科学)生态得到了极大发展。目前有许多其他书籍专门讲解这些更高级的方法。希望本书可以让读者做好充分的准备,以便以后学习更细分领域的知识。

什么样的数据

当书中提到“数据”时,主要指的是结构化数据,例如:

●表格型或电子表格型数据,其中各列可能是不同的类型(字符串、数值、日期等)。比如保存在关系型数据库中或以制表符/逗号为分隔符的文本文件中的数据。

●多维数组(矩阵)。

●通过关键列(对于SQL用户而言,就是主键和外键)相互联系的多个表。

●平均或不平均间隔的时间序列。

这里没有列举所有格式的数据。大部分数据集都能被转化为更加适合分析和建模的结构化形式,虽然有时这并不是很明显。如果不行的话,也可以将数据集的特征提取为某种结构化形式。例如,一组新闻文章可以被处理为一个词频表,而这个词频表就可以用于情感分析。

大部分电子表格软件(比如Microsoft Excel,可能是世界上使用最广泛的数据分析工具)的用户不会对此类数据感到陌生。