1.4.3 处理数据
处理数据是指从大量的、杂乱无章的、难以理解的、缺失的数据中,抽取并推导出对解决问题有价值、有意义的数据的过程。处理数据主要包括数据规约、数据清洗、数据加工等处理方法,如图1.11所示。
图1.11 处理数据
1.数据规约
数据规约是指在接近或保持原始数据完整性的同时,将数据集规模减小,以提高数据处理的速度。
2.数据清洗
获取原始数据后,会发现其中很多数据不符合数据分析要求,此时就要对其进行清洗,操作步骤如下。
(1)数据探索分析,即分析数据是否存在缺失、异常等情况,分析数据的规律。Python中,describe()函数可以自动计算非空值(count)、唯一值(unique)、最高值(top)、最高频值(freq)、平均值(mean)、方差(std)、最小值(min)、最大值(max)等,通过求得的值可以分析出有多少数据存在数据缺失和数据异常。
(2)重复数据处理。对于重复的数据,一般做删除处理,通常使用Python第三方模块Pandas中的drop_duplicates()方法。
(3)缺失数据处理。对于缺失的数据,如果比例高于30%,则可以选择放弃这个指标,删除即可;如果缺失比例低于30%,则可以将这部分缺失数据进行填充,以0或均值等。
(4)异常数据处理。需要对具体业务进行分析和处理,对于不符合常理的数据可直接删除。
3.数据加工
数据加工包括数据抽取、数据计算、数据分组和数据转换。
数据抽取:选取数据中的部分内容。
数据计算:进行各种算术和逻辑运算,以便得到进一步的信息。
数据分组:按照有关信息进行有效的分组。
数据转换:数据标准化处理,以适应数据分析算法的需要,常用的有z-score标准化、最小/最大标准化和按小数定标标准化等。
经过上述标准化处理后,数据中各指标值将会处在同一个数量级别上,可以更好地对数据进行综合测评和分析。