可视化分析与SAS实现
上QQ阅读APP看书,第一时间看更新

1.3 数据分析的可视化与分析的不同层次

数据分析的可视化是指数据分析过程的可视化和数据分析结果的可视化。一个完整的数据分析过程包括数据获取、数据的清洗与转换、数据分析和模型开发,以及分析结果的展现这几个环节。可视化在每一个阶段都可以起到重要的作用。

1.3.1 数据获取与数据转换

数据必须能够通过获取、整合、转换成为适合进行处理的格式,这是任何分析的基础。用户需要分析的数据往往是以多种形式存在的。这些数据可能以文本文件形式存在,可能存储在关系型数据库系统当中,也可能存储在Hadoop文件系统中。可视化分析在这一阶段可以通过友好交互的图形化应用界面定义数据获取的机制和规则,生成数据抽取的代码,直接利用生成的代码或基于生成的代码将数据从各种不同的数据源当中高效地抽取出来。

数据的转换是指通过一定的步骤将数据转化成为能够提供更多信息的形式。一般来说,数据转换可以分为两类。一类是根据业务规则生成分析需要的新的数据,例如根据银行账户的余额和交易的发生额生成账户的每日余额和日均余额;另一类是根据分析的需要对现有数据进行技术上的转换,例如通过共线性分析将某些冗余变量删除,或对某些变量进行Log变换。数据转换的过程同样可以用可视化的方式辅助实现。

1.3.2 高级分析与模型开发

可视化分析技术同样可以为高级分析提供可视化的交互界面和用以分析的辅助图像。在这个阶段,可视化分析技术可以提供诸如散点图、盒须图、热力图、气泡图等对分析极有帮助的各种图像。可视化还可以使分析人员借助友好的交互界面使用高级分析技术包括机器学习技术来建立模型并进行模型评估等工作。总之,可视化使得用户不需要大量编码就可以使用各类高级分析技术,从而使得分析的门槛大大降低,普通的业务或技术人员经过一定的培训也可以进行高级分析。

1.3.3 分析结果展现与模型应用

只有分析的结果能够及时有效地和决策人员共享,这样的分析才是有意义的。可视化使得分析过程、结果可以被生动灵活地展现和分享,从而帮助决策者理解分析结果。如果分析的结果是一个模型,那么这个模型就应该能够方便快捷地部署并应用起来,只有这样模型才可以在决策过程中发挥作用。可视化技术能够简化模型部署的过程,并且使得监控模型的工作变得更简单。

人们谈及数据可视化分析,一个常见的误区是认为可视化分析就是报表和图形。实际上数据可视化分析涵盖了数据分析的各个层面,具体而言,可以分为下面不同的8个层次:

标准报表:标准报表是一个组织机构甚至一个行业所需要的基本固定报表或数据图表,可以回答诸如“发生了什么”以及“什么时候发生”这样的简单业务问题。

即席报表:即席报表可以允许使用人员在一定的范围内输入条件信息然后即时地按照输入的条件得出报表或图形报告。可以对于“在哪里发生”“发生频率”以及“多少”这样的业务问题进行回答。比如业务人员会希望立刻看到对于某一个区域在某个时间段的销售情况。

钻取查询:钻取查询的功能就是联机分析处理(OLAP)所提供的功能。它可以让业务人员从不同的业务维度分析结果,并对数据进行钻取从而分析问题发生的根本原因。

警报:警报信息可以在发生特定问题的情况下通知相关人员。比如,当销售目标低于预期时,销售管理人员会收到提醒,提醒的方式可以通过电子邮件,也可以通过仪表盘等方式。

这四个层次的分析基本上就是传统意义上的报表,这些分析可以根据数据对于已经发生的事情生成报表。但是这些分析的不足也是显而易见的,即它们都不能提供关于未来的任何分析。如果业务部门需要了解更为复杂的关于未来的预测性的分析,那么就需要依赖高级分析,即下面的四个层次的高级分析。

统计分析:基于数据,统计分析可以应用一些较为复杂的分析模型,如回归。业务人员通过回归模型可以了解为什么某件事情会发生,以及影响该事件发生的各个因素所占的权重。

时间序列预测:时间序列预测可以用来分析按时间顺序生成的数据列。例如可以帮助零售商预计某个商品未来一段时间在各个门店的需求。这种需求预测可以帮助零售商以适当的成本提供定量的商品以应对客户对于不同产品的需求。

预测模型:假设某个公司拥有上千万的客户,如果该公司希望展开一次市场营销活动,那么哪些客户会对该营销活动积极响应?或者该公司希望了解自己的客户中有哪些客户可能流失?预测模型正是用来回答类似这样的问题的。预测模型已经成功应用于许多领域,比如风险评估、欺诈监控和数据库营销等。

优化:优化可以解决在资源约束的情况下,如何得到最佳产出的问题。比如在市场营销活动中,业务人员往往面临营销经费固定,营销人员数量有限的约束,如何在这样的约束情况下取得最佳的市场营销效果,市场营销优化就可以给出最优的营销策略。另外在供应链领域,库存如何优化也是一个常见的问题,库存过高会给整个供应链带来资金的压力,库存过低则可能不能及时满足客户的需求,库存优化则可以在满足客户需求的情况下将整个供应链的库存尽可能降低。

上面这四类高等分析可以基于数据进行统计分析、预测和优化,因此可以提供预测性的洞察力,从而回答更为复杂的业务问题。为了应对日益复杂的业务问题,数据可视化分析软件需要提供从标准报表到预测以及优化的全方位的解决方案。