Hive大数据存储与处理
上QQ阅读APP看书,第一时间看更新

第1章 广电大数据用户画像需求分析

学习目标

(1)了解广电大数据用户画像需求分析的背景。

(2)了解目前常见的几种大数据存储产品。

(3)了解Hive原理架构和Hive的主要特点。

(4)了解Hive和传统数据库的主要区别。

素养目标

(1)通过了解广电大数据发展背景,把握产业数字化的“脉搏”,了解信息化对产业升级的重要作用,培养信息敏感度。

(2)通过学习大数据存储技术,培养软件版权意识。

(3)通过学习Hive原理架构,提高认识对核心原创技术自主开发重要性。

思维导图

任务背景

《中国广电有线网络技术年度发展报告(2019)》中的数据显示,截至2019年第三季度末,全国有线广播电视实际用户数为2.1亿,较2018年小幅减少。其中,全国有线数字电视实际用户数为1.9亿,较2018年减少0.1亿;全国有线数字电视实际用户数占全国有线广播电视实际用户数的比例为90.5%,较2018年降低4.0%。2019年第三季度全国有线数字电视缴费用户数为1.5亿,缴费用户持续减少。

新一代信息技术和互联网的迅猛发展,为广电行业带来了前所未有的巨大挑战和重大机遇。近几年来,大数据、云计算、人工智能、移动无线接入等技术应用不断深入广电行业,新一代5G网络开始正式商用,用户对广电网络服务差异化、多样化、个性化的需求越来越迫切。与国外领先的网络运营商和国内三大电信运营商相比,广电公司的业务和技术发展较为迟缓,差距不断拉大,时刻面临着用户数持续减少等前所未有的生存和发展压力,挑战严峻。随着互联网技术的快速发展和应用扩展,国家正式推进“三网”融合,三大网络通过技术改造,使技术功能趋于一致,业务范围趋于相同,网络互联互通、资源共享,可以为用户提供语音、数据和广播电视等多种服务。

新媒体的飞速发展,对传统媒体造成了巨大冲击,广电公司依靠稀缺资源形成的优势已经逐渐失去。在复杂又激烈的竞争环境中,广电公司的用户流失问题变得异常突出。如何减少用户流失、挽留用户并挖掘用户的潜在需求,是广电公司目前急需解决的问题。

在传统媒体时代,广电公司“不知道用户在哪里,不知道用户是谁,也不知道用户想看什么”,因此难以精准把握用户需求。随着有线数字电视的不断推广与普及,广电公司具备了获取用户身份数据、实时收视数据的能力,可通过网络终端设备和后台系统采集用户基本数据、用户收视数据、用户订单数据、用户账单数据等。广电公司已逐步完善拥有人口统计特征数据、用户内容使用数据、用户行为痕迹数据、用户搜索与需求数据、用户消费行为数据、用户社交活动与意见数据等巨量且详尽数据的用户数据库。利用此用户数据库,广电公司可以根据用户的特点,从人群、时间、地点、产品和付费方式等维度分析用户,对用户进行全面的画像。例如,从人群维度分析用户是处于少年、青年、中年还是老年时期等,以及分析用户的收视语言是普通话、粤语还是外语等;从时间维度分析用户每天观看电视的时长或用户观看某一电视节目的时长;从地点维度分析用户的收视常在地;从产品维度分析用户喜欢观看的电视频道(如点播频道、回看频道或直播频道等)或节目类型(如体育节目、电视剧、购物节目、少儿节目等);从付费方式维度分析用户是收费用户还是免费用户。可通过大数据分析,把握广电用户群体的特征和收视行为,了解用户的实际特征和实际需求,并提供个性化、精准化和智能化的推荐服务,以此挽留用户、减少用户的流失。