1.1 数据分析的基本原理
本节将简要介绍数据分析的基本原理,这部分内容可能相对比较枯燥,但是花一些时间读完,会对数据分析有一个整体的了解。
1.1.1 为什么要进行数据分析
对数据进行分析主要有两个原因:了解现状和预测未来。了解现状是为了对当前阶段进行总结,例如总结企业现阶段的整体运营和财政收支情况,从而衡量企业的整体发展形势和状态。
了解现状的目的是为了弄清楚哪些方面做得好,哪些方面做得不好,然后进行及时调整和把控:好的方面是如何做到的,以后如何做得更好;差的方面是什么原因导致的,以后如何改善和避免。预测未来是为了让企业发展更好而制订的策略和计划。数据分析虽然面对的是大量枯燥乏味的数字,但是这项工作对企业的长远发展至关重要。
1.1.2 数据分析的基本概念
简单来说,数据分析是通过人眼观察或使用相关工具,从大量数据中找出数据的分布规律、发展趋势等数据的内在含义,从而对现阶段的状况或未来的发展提供有意义的指导。
“数据分析”这项活动针对的对象是“数据”,要对“数据”这个对象做的事情是“分析”。人们面对的数据或简单或复杂,数据的来源也有各种各样的渠道。然而,无论数据来源和数据本身是什么形式的,在对它们进行分析时,都要对数据进行分类,只有分类后的数据才有进一步分析的意义。“分析”实际上是对数据作“比较”,只有将同类数据放到一起进行比较,才能得出结果。
例如,在一个销售明细表中包含苹果、蓝莓、芒果三种产品在1—3月的销量,如图1-1所示。如果单独把其中一种产品在3个月的总销量拿出来看,例如E2单元格中的600,它只是一个表示“苹果”在1—3月的总销量的数字,并不能提供更多有价值的信息。
如果把该产品在1—3月每个月的销量都拿出来看,此时这些数字就有了更多的含义,通过这些数字可以比较出哪个月(3月)的销量最多,哪个月(1月)的销量最少。如果将三种产品在同一个月的销量拿出来看,通过这些数字可以比较出在同一个月中哪种产品(蓝莓)的销量最多,哪种产品(苹果)的销量最少,如图1-2所示。
图1-1 三种产品的销量情况
图1-2 分类后的数字放在一起作比较产生有价值的信息
根据数据之间比较的结果,就可以挖掘导致这种分析结果背后的原因,例如某个月销量最多的原因是季节因素还是其他因素,某款产品的销量最多是因为产品质量好,还是因为受众人群广。
这个简单的例子说明了“分类”和“比较”在数据分析中的意义。在实际的数据分析过程中,人们使用很多专业的分析工具对数据展开各种分析研究,虽然分析工具的种类和用途各有不同,但是数据分析的两个基本要素(“分类”和“比较”)是相同或类似的。
1.1.3 数据分析的基本流程
为了更好地分析数据并得到正确的分析结果,在分析数据时通常需要遵循以下4个步骤:
创建数据→整理数据→分析数据→展示数据。
1.创建数据
“数据分析”针对的对象是“数据”,因此在进行数据分析时首先要有数据。创建数据主要有两种方式,一种是手动输入数据,另一种是导入由其他程序创建的数据。
使用第一种方式创建数据的效率较低,由于用户的误输入可能会导致内容存在一些错误,但是输入内容的格式相对比较规范。使用第二种方式创建数据的效率较高,直接导入即可完成,但是导入的数据通常在格式上会出现一些不符合要求的情况。
2.整理数据
无论是用户手动输入的数据,还是从外部程序导入的数据,或多或少都会存在一些问题,例如格式不规范、内容有误等。因此在构建好基础数据后,通常需要按照要求或规范,对数据进行必要的整理,包括转换数据、提取数据、拆分数据、合并数据等。
3.分析数据
将基础数据整理成比较规范的格式后,接下来就可以开始对数据进行分析了。分析数据的目的是从繁杂的数据中提取出有价值的信息,最后形成有效的观点或结论。Excel提供了不同类型的分析工具,用户可以根据数据分析的需求,选择使用适合的分析工具。例如,如果要按照产品类别汇总销售额,可以使用“分类汇总”工具;如果要实现资源的最优化配置,则需要使用“规划求解”工具。
4.展示数据
在完成前面3个阶段的工作后,就可以展示数据了。展示数据是指将数据的分析结果以让人易于理解的方式呈现出来,而图表正是展示数据的利器。根据数据类型和结构的不同,可以选择使用适合的图表类型来展示数据。