离线和实时大数据开发实战
上QQ阅读APP看书,第一时间看更新

1.4 本章小结

本章主要从整体上对数据进行了概述,包括数据从产生到消费的四大过程:数据产生、数据采集和传输、数据存储处理以及数据应用,每一个过程都涉及很多的技术、开源框架、工具和平台,比如离线的主要数据处理技术是基于Hadoop MapReduce的Hive,而Hive是一种SQL on Hadoop的技术,但类似的SQL on Hadoop技术和框架还有很多,比如Cloudera的Impala、Apache的Drill以及Presto和Shark等,初学者应该以一种技术为主,辅助了解其他相关的技术,否则容易失去重点,从而不知所措。

本章还对数据从业者的各种角色进行了介绍,包括他们的主要职责以及日常工作内容等。

通过学习本章,读者应该对数据的概貌有了纲要性的认识,下一章将把这些流程、技术和角色整合起来,也就是构建数据平台!