大数据分析:R基础及应用
上QQ阅读APP看书,第一时间看更新

引言

大数据时代,R被拉到了潮流尖端,作为免费的开源软件,随着加入的人数增多,R的计算引擎、性能、各种程序包都得到了改进和升级,其中R和Hadoop的结合RHadoop实现了大规模数据的分布式处理分析,RHive包将R语言与Hive连接,可以通过R快速访问存储在Hive的大数据集,这一切让R获得了新生。为了更好地适应新形势,国泰安联合中科院先进院于2014年10月成立了金融大数据研究中心。鉴于此,国泰安大数据事业部群组织专家学者推出了《大数据分析:R基础及应用》一书,该书具有以下几个方面的特色。

1.实训性强

目前,市面上流通的R语言经济金融建模系列教材不胜枚举。本书的特色在于选取特定的专题来解决一些实际问题,让读者学习如何使用R语言进行实证建模。同时,本书也给出了一些非常有价值的总结和后续思考,以供读者研究。

2.编排体系合理

整个的结构按照“大数据简介→R语言基础知识→数据分析功能→专题实证研究→RHadoop案例分析”这样的思路组织全书,既方便读者(特别是初学者)在了解大数据概念和技术的基础上学习R软件的操作和简单编程,也帮助他们快速地用R语言建立模型,并作出分析和结果论证,有大量的案例可作参考。

3.考虑不同群体的阅读偏好和水平

本书涉及面广,在专题实证研究部分涵盖了多个领域,包括金融时间序列建模专题、动态面板数据专题、大数据时代数据挖掘专题、机器学习专题和信息可视化专题,充分展示了当前该领域的需求和R的强大优势。

本书适合没有编程基础的科研人员及大数据分析人员使用。从事经管类的学术研究往往都需要建模及数据作为支撑。本书分为三大部分进行介绍,即理论基础+方法+实证。理论基础分为两个章节,主要介绍大数据的基础知识和相关技术。方法部分分为4个章节,其中第3章主要对R语言进行简单的介绍,第4章是R语言的操作讲解;第5章将介绍R语言一大特色——可视化图表及相关统计分析的R语言实现;第6章将对R语言数据分析处理进行一个简单介绍。实证部分包括专题实证研究和RHadoop案例分析,其中专题实证研究介绍4个专题,给出不同的实际案例,循序渐进地讲解如何利用R语言进行实证建模,包括时间序列模型、动态面板数据模型、数据挖掘及信息可视化。这些模型既涵盖了理论的指导,又附有程序的说明及结果的验证,同时还包括对模型进一步的延伸与思考。RHadoop案例分析部分介绍在RHadoop环境下R的基本操作及8个案例,包括回归分析、logistic分析、判别分析、聚类分析、主成分分析、因子分析、商品推荐算法及差异分析,针对不同的分析方法介绍算法的原理和RMapReduce编程实现。

本书编写组希望《大数据分析:R基础及应用》一书可以对广大读者有所帮助,相信读者能收获以下几点:

1.掌握大数据的基础概念和R处理大数据的机制,并深入地了解R语言,能够掌握R编程的基本技能,程序注释非常清楚,易学易懂。

2.熟练掌握从建模到利用R语言对数据进行实证的整个过程。

3.可以学习金融时间序列建模,数据挖掘等领域的一些比较经典和前沿的热门模型。

4.能够学习到不同学科之间的交叉应用,包括统计学与金融,数学与金融等一系列知识。

5.熟悉RHadoop环境,掌握RMapReduce编程,实现在RHadoop环境下进行大数据分析。

限于编者的能力和时间,本书难免存在纰漏或不足之处,欢迎读者批评指正。

深圳国泰安教育技术股份有限公司