Hive大数据存储与处理
上QQ阅读APP看书,第一时间看更新

1.1.1 业务需求分析

大数据技术涵盖数据存储、处理、应用等多方面的技术。大数据的处理过程可分为数据采集、数据预处理、数据存储、数据分析、数据应用等5个环节。大数据技术在广电有线网络的生产运营、用户服务、运营管理等业务中发挥着重要作用。

首先,各广电有线网络公司可充分利用其地缘优势、数据优势,推动数据后台的对接,实现广电有线网络的大数据共享。其次,针对广播电视家庭用户的使用习惯进行分析,分析其中可能存在什么样的个体,通过对不同个体在不同时段的行为进行记录和分析。利用大数据技术,可关联外部数据和应用数据,对业务运营尤其是个性化推荐进行辅助支撑。最后,在用户画像分类和产品分类标签的基础上判断用户喜好,预测用户可能的行为,根据相关算法进行内容推荐。

可通过收视行为分析、用户活跃度分析,对用户服务进行分级定义,挖掘、分析用户相关数据,然后对用户数据进行标签化处理,建立用户画像模型,并提供标签的增加和删除功能。以此为基础建立分类模型,预测用户是否值得挽留,并将预测结果作为用户画像的标签。通过数据建立用户分类模型,一方面可以给用户提供更好的服务,另一方面可以进行用户流失预测,从而支撑用户挽留工作,最终提高用户黏度,为广电业务的开展和拓展提供有力支撑。

全书主要处理流程如图1-1所示。首先收集用户基本数据、用户状态变更数据、账单数据、订单数据、用户收视行为数据等诸多相关数据,并将其存入Hive数据仓库。在此基础上,实现用户基本数据简单查询、账单与订单数据查询进阶和用户收视行为数据查询优化,并进行数据清洗与导出等工作。最后,在编程开发环境中实现数据存储、数据查询、数据清洗的程序开发。

图1-1 全书主要处理流程