1.4 可视化分析面临的挑战与应对
1.4.1 可视化分析面临的挑战
在大数据时代,数据可视化分析面临巨大的挑战,企业需要更新的数据分析平台以满足不断发展的数据分析需求。新的数据分析平台要能够对海量的数据进行快速的处理、探索和高级分析。在大数据时代,企业的数据量快速的增长,企业所得到的数据会呈现多样性,企业需要处理的业务问题也越发复杂,因此企业需要拥有一个统一的数据分析平台去分析大量的各种不同类型的数据,并且能够快速地对任何分析问题进行处理。新一代的数据分析平台还应具有扩展性,能够随着数据量和分析人员的不断增加,而提供可扩展的数据分析能力。
数据可视化分析面临的另外一个挑战就是对数据和分析过程的全面管控。各类开源技术的涌现使得人们可以任意搭配各类不同的开源技术平台对数据进行可视化分析,大大推动了可视化分析的普及。可是各类开源技术经常不能够很好地集成,因而导致对于数据和分析过程缺乏有效的管控,这会随之而来增加各种风险,比如维护成本、管控成本和合规风险等。在企业内部对于数据进行处理的工具经常是多样的,这会使得跟踪数据的来源变得越发复杂,此外人们还需要知道现在正在使用的模型是哪一个版本、是否是最新发布的模型以及是否能够定期对模型进行更新。所有这些都表明一个能够对所有数据和整个分析流程进行管控的数据可视化分析平台是十分必要的。
数据可视化分析要能够解决整个数据分析生命周期中的各种问题。完整的数据分析过程包括数据准备、数据探索、数据变换和变量选择、建立模型、验证模型、部署模型及持续评估和监控模型表现。任何可视化分析的基础都是高质量的数据,在数据准备阶段,数据可视化分析要求能够获取各种不同类型的数据。客户的数据可能以多种形式存储,可以是传统的Excel文件、文本文件、关系型数据库、电子邮件、各类应用系统、网页、社交媒体流,也可以是Hadoop、Cassandra等分布式存储系统,数据可视化分析要能够帮助用户通过可视化的界面获取各种不同类型的数据,并且能够对数据进行有效的整合。
在数据探索阶段,需要有可视化的界面帮助各种水平的用户对数据进行探索。用户可以借助可视化的界面和各种不同类型的可视化图形对数据进行探索性分析,生成各种直观的报表、图形。在建立模型阶段,对于不擅长编程的用户,数据可视化分析平台也应该提供交互式的界面帮助用户建立各种预测模型。借助可视化的界面和可视化的报表、图形,拥有不同知识水平的人员都可以充分利用数据分析的能力,得到并且分享数据分析的结果。
数据可视化分析平台还应该提供全面的模型存储、模型监控、模型执行能力。数据可视化分析平台应该对各种类型的模型提供统一的模型管理界面,用户只需要一次性导入模型,然后就可以在各种不同系统当中使用该模型。模型管理界面还应当具备持续的模型监控能力,当模型的表现开始出现明显衰减时,建模人员可以得到提醒进而重新训练并且寻找冠军模型。可视化数据分析平台还应该提供完整的模型执行的能力,各种模型能够轻易地部署到各个生产环境中。
1.4.2 SAS的可视化分析实现
为了应对大数据时代的可视化分析挑战,SAS公司推出了新一代的高性能内存分析平台。该平台的架构易于在公有云、私有云以及其他操作系统安装部署,因此具有良好的可扩展性。同时,该平台提供了基于内存的、分布式的处理能力,可以让多个用户同时对大量数据进行处理,解决复杂的分析问题。该平台为拥有SAS技能以及其他语言技能的人员提供了一个开放统一的平台,拥有不同编程语言技能的人都可以借助该平台解决各种复杂的分析问题。
SAS推出的统一的数据可视化分析平台具有以下特点,能够很好地解决大数据时代所面临的数据分析挑战。
全面的分析管控。SAS新一代可视化数据分析平台为企业级的数据分析提供了必要的管控。它可以让企业对独立分散的数据分析流程进行有效的管理,可以帮助企业内部的数据分析人员管理各种不同语言生成的模型,同时帮助IT部门对于所有的分析过程进行监管。它还可以对模型版本、模型权限,数据源等信息进行统一的管理,从而确保企业在整个分析流程中所使用的数据、模型和结果都是可以信赖的。
可以信赖的分析结果。可视化数据分析的结果会指导商业决策,在风险、欺诈和网络安全等领域,数据分析结果的精准性至关重要。从简单的线性回归到复杂的机器学习算法,SAS提供了广泛的经过各个领域实际验证的分析功能,这些分析功能经过严格的测试,在SAS的不同版本之间的运行结果保持一致。
可视化分析界面。SAS新一代的可视化分析平台提供了友好的可视化分析界面。普通用户可以通过可视化的界面进行数据准备、数据探索以及模型建立,不需要了解编程语言就可以使用SAS强大的数据管理和数据分析能力。而具有编程能力的用户可以使用自己所习惯的语言进行编程,SAS新一代的可视化分析平台支持用户通过Python、Java、R或者Lua语言去调用SAS强大的数据管理和数据分析能力。
人人可以使用数据分析。SAS新一代的可视化分析平台所提供的自助式的数据准备、数据探索、模型建立等功能可以让企业内部的非技术人员都能够使用SAS提供的强大分析能力,将数据转化成为可以信赖的决策。
模型部署简单化。SAS新一代的可视化分析平台提供了对于各种语言的模型进行存储、执行和监控的统一平台。企业可以轻易地部署模型,然后在企业内部的不同生产系统中调用该模型。
高性能。SAS新一代可视化数据分析平台所采用的分布式的基于内存的架构使得数据处理的速度大大加快,以往需要几个小时运行的工作采用新的数据分析平台后往往几分钟就可以得到结果。用户在使用SAS函数的时候也无需将数据从Hadoop中进行抽取,SAS函数支持在Hadoop内部运行。
借助于SAS的新一代的可视化分析平台所拥有的技术优势,SAS采用不同的产品和技术去满足上面提到的数据分析的8个不同层面的需求。
SAS可视化分析(SAS Visual Analytics)。针对一般的报表和钻取查询,SAS提供了可视化分析产品。SAS可视化分析借助SAS基于内存的分析引擎,支持从不同的数据源将数据加载到内存当中,快速检索海量的数据,并且最终以报表的形式展现。SAS可视化分析分为三个模块:SAS可视化数据生成器(SAS Visual Data Builder)、SAS可视化探索器(SAS Visual Analytics Explorer)、SAS可视化设计器(SAS Visual Analytics Designer)。SAS Visual Data Builder通过可视化的界面为业务人员提供了访问不同数据源的能力,用户可以访问数据库当中的表、文本文件、存储在Hadoop当中的数据,并且将这些数据加载到内存分析引擎中。SAS Visual Analytics Explorer允许用户对加载到内存中的数据进行交互式探索,并且可以生成各种不同的图形和表格。SAS Visual Analytics Designer可使用户轻松创建各种不同类型的报表和仪表盘,这些报表支持过滤和高亮这样的交互式操作。
SAS可视化统计(SAS Visual Statistics)。SAS Visual Statistics提供交互式的界面,用户通过界面可以快速建立预测模型。SAS Visual Statistics充分利用了SAS的基于内存的分析引擎,可以快速地对大量数据进行分析,允许用户在短时间内对多个模型进行开发和验证。用户可以方便地对模型进行评估,将选定的冠军模型投入到生产环境中,最终让分析模型落地的时间大大缩短。SAS Visual Statistics针对预测模型可以进行线性回归模型、逻辑回归模型、广义线性模型和决策树模型。此外SAS Visual Statistics还提供了聚类模型。
SAS可视化数据挖掘和机器学习(SAS Visual Data Mining and Machine Learning,简称SAS VDMML)。SAS VDMML给用户提供了数据挖掘和机器学习的工具。它集成了获取数据、数据转换、特征工程、探索性数据分析、建立模型、比较模型和生成评分代码等所有数据挖掘和机器学习所需要的功能。在这单一平台上,用户可以针对监督学习和非监督学习使用统计学方法、机器学习算法以及文本分析算法。它提供的交互式的界面让普通业务人员可以同样使用SAS强大的高级分析功能。
此外SAS还推出了基于新一代数据分析平台的通用型解决方案——SAS可视化调查(SAS Visual Investigator)。它可以使信息分析人员和调查员减少误报,简化调查过程,打击欺诈行为并改善客户细分。SAS Visual Investigator支持将不同类型、大小和位置的数据集中起来,实现数据搜索、查询。它还可以利用高级分析方法对事件进行风险评估,帮助调查人员将精力集中在高风险的事件上,并且支持将实体间关系进行网络可视化从而发现有价值的隐藏信息。SAS Visual Investigator可以广泛应用在各个领域:欺诈探测、风险分析、零售损失预防、机器性能监控。