数据科学技术与应用
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.2 Python数据分析工具

越来越多的人开始使用Python语言开展数据分析工作,与统计分析专业工具R语言和矩阵计算专业工具Matlab相比,Python包含了数据分析过程需要的所有方法和工具,具有速度优势,能够支持大数据处理。Python通过多个开源的第三方工具包来实现数据分析,能够紧跟新技术发展,已成为数据科学的首选工具。

使用Python实现数据分析过程,工作人员重点关注分析的技术和方法,无须耗费大量精力掌握复杂的软件编程技术,代码量少,适用于初学者,同样也适用于专家。

1.2.1 科学计算集成环境Anaconda

Python是一个开源的、跨平台的编程语言,官方网站提供了针对各个平台的安装包(http://www.python.org/downloads),包含基础的Python编程环境,以及基础的方法库。使用Python分析数据,需要安装相关的第三方工具包(通过Python的pip命令逐个安装)。本书推荐使用Python的科学计算发行版Anaconda(开源),它是一个跨平台的版本,支持Windows、Linux、MacOS等平台,包括近200个工具包,常见的NumPy、SciPy、pandas、Matplotlib、scikit-learn、NLTK等库都已经包含其中,满足了数据分析的基本需求。

Anaconda可以在官方网站中(https://www.anaconda.com/download)下载,也可以到国内的镜像网站中下载(如https://mirrors.tuna.tsinghua.edu.cn/help/anaconda)。本书代码统一遵循Python 3语法,推荐安装Anaconda3-5.0.1及以上版本。

在Windows平台上安装完成后,在“程序”列表中将添加Anaconda3程序组,如图1-4所示,其中包含多个应用程序。Anaconda Navigator提供第三方工具包的管理工具,Anaconda Prompt是命令行工具,Jupyter Notebook是交互式笔记本(详见1.2.3节),Spyder是一个集成开发环境。

图1-4 Anaconda3程序组

1.2.2 Python编译环境

Python有很多功能丰富的集成开发环境,如IDLE、Pycharm、Spyder等,本书采用IDLE,它是一款轻量级的交互式解释环境,只要安装了Python解释器就会附带。打开Anaconda Prompt,进入命令行界面,如图1-5(a)所示。然后输入IDLE命令,即可打开Python的Shell界面,如图1-5(b)所示。

图1-5 IDLE交互式界面

IDLE可以逐条运行代码,也可以创建、编辑Python源代码文件,运行完整的程序。在图1-5中,在命令提示符“>>>”后输入语句并回车,下一行蓝色的字体表示代码执行结果;单击“File”菜单的“Open”或“New File”即可进入源代码编辑界面,如图1-6所示。

图1-6 源文件编辑与调试界面

程序编辑完成后,单击“Run”菜单的“Run Module”,即可运行解释并执行代码,代码执行的交互显示在Shell界面。

1.2.3 Jupyter Notebook

Jupyter Notebook是一个基于Web的交互式笔记本,其主要特点是易于“讲故事”。它将程序存放在一个文件中,但可以分割成多个片段运行展示,可以实现:

● 查看算法每步运行的中间结果;

● 反复修改、运行代码片段;

● 存储中间结果,并修改;

● 展示代码成果(可以是文本、代码和图像等形式)。

在Anaconda3程序组中单击Jupyter Notebook,启动操作系统默认的浏览器,打开Jupyter应用程序,如图1-7所示。

图1-7 Jupyter Notebook Web界面

单击“New”菜单的“Python 3”,打开一个新窗口,就可以创作自己的Notebook了,文件后缀名为“.ipynb”,如图1-8所示。窗口下部由可以编写代码的单元(cell)组成。单元“In[n]:”(n为单元执行的序号)里面既可以存放一段文本,也可以存放一段代码。选中某个单元,单击工具栏的“”,即可运行该单元的代码。结果在此单元下方显示,用“Out[n]:”表示。

图1-8 Jupyter Notebook文本编辑界面

当某个单元运行后,其运行结果会被保留下来,后面的单元运行时,将继承前面的运行结果,可以访问、修改前面的变量值。

单击“File”菜单的“Rename”,可以为Notebook文件重新命名。