大数据分析与应用实战:统计机器学习之数据导向编程
上QQ阅读APP看书,第一时间看更新

1.4 Python语言数据对象

另一种重要的数据分析语言Python,近年来被众多数据科学家使用。相较于R语言的前身S语言(https://en.wikipedia.org/wiki/S_(programming_language)),Python其实是通用程序语言(General Purpose Language, GPL),与其他计算机软硬件兼容性高,因此又常被称为胶水语言(glue language)。近年来因为深度学习(deep learning)日益重要,Python语言容易与诸多深度学习框架结合,因而大受欢迎。

S语言是1975—1976年间,由贝尔实验室(Bell Laboratories)所研发的统计运算语言。创建者John Chambers曾经提及其设计目标为:将创意快速且忠实地转换成软件(Chambers, 1998)。GNU-S(即开源R语言)或商业版S-Plus语言,是统计与数学专业领域(Domain-Specific Language, DSL)的研究工具(research-oriented),是数据探索、可视化与建模不可或缺的利器,有许多前沿的统计、数据挖掘、机器学习等函数库。

想要成为顶尖的数据科学家,通常都要通晓这两种数据驱动程序设计语言。本书同时提供Python与R两种语言的实操代码,以可重复性研究(reproducible research)编程的方式,适时地在两种语言间切换,有效帮助读者快速掌握两种数据驱动程序设计语言的异同。