上QQ阅读APP看书，第一时间看更新

第6章　数据预处理和初步探索

现实世界中的数据量越来越大，也越来越容易受到噪声、缺失值和不一致数据等的影响。数据库太大，如若有不同的来源（多半确实会有，像Wind的数据，来源就十分广泛，比如交易所、各公司的年报、各政府机关网站，还有其他大大小小的供应商等），那么脏数据问题一定会存在，这是不可避免的。

为了使数据中的各种问题对我们的建模影响最小化，需要对数据进行预处理。

在收集到初步的样本数据之后，接下来需要考虑的几个问题是：样本数据的质量是否有问题，如果有问题，应该怎么处理？样本数据是否出现了意外的情况？样本数据包含哪些基本的统计特征，有没有明显的规律？为了便于后续的深入分析和建模，我们需要对数据进行哪些处理？

通过数据清洗、绘制图表，以及基本统计量的计算，我们可以对数据做一个初步的分析和探索，为后面的深入分析和建模打下基础。

在实际操作中，数据预处理通常分为两大步，一是数据清洗，二是数据的基本分析。这两步并不一定是按先后顺序进行的，通常也会相互影响。比如，有的错误数据（不可能出现的极值），必须通过基本的统计分析才能发现。

有一种说法，数据的预处理会占据绝大部分的工作量，有的甚至会达到所有工作量的80%，建模和算法真正的工作量其实只有20%。这个结论在互联网或者传统IT领域，特别是面对大量的非结构化数据时，确实是事实。

但在金融二级市场上就不太一样了，由于很多现成的供应商已经将数据处理好并结构化了，所以实际的数据预处理工作量并没有那么大，但40%的比例应该是有的。