实战大数据(Hadoop+Spark+Flink):从平台构建到交互式数据分析(离线/实时)
上QQ阅读APP看书,第一时间看更新

1.1 什么是大数据

大数据的概念由来已久。其实,早在1980年,阿尔文·托夫勒在《第三次浪潮》这本书中已经预言了信息时代的到来会带来数据的大爆发,但是当时的技术还不成熟,所以等到几十年后大数据才登上历史舞台。因为技术需要持续的积累才能由量变到质变。大数据到底是什么?研究机构Gartner给出了定义,大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

谈到大数据,不得不提到Hadoop。Hadoop起源于Google公布的与GFS(谷歌文件系统)、MapReduce(面向大型集群的简化数据处理)、BigTable(结构化数据的分布式存储系统)有关的三篇论文,正是这三篇论文奠定了大数据发展的基石,Hadoop的诞生极大地促进了大数据技术的快速发展。

虽然大数据与Hadoop关系密切,但Hadoop并不等同于大数据,大数据也不是指Hadoop,大数据代表的是一种理念、一种解决问题的思维、一系列技术的集合,Hadoop只是其中一种具体的处理数据的技术框架,目前比较流行的Spark、Flink等实时计算框架也属于大数据技术。

为了满足企业对于数据的各种需求,需要基于大数据技术构建大数据平台。大数据平台是指以处理海量数据存储、计算及不间断流数据实时计算等场景为主的一套基础设施。典型的大数据平台包括Hadoop、Spark、Flink以及Flume/Kafka等集群。