上QQ阅读APP看书,第一时间看更新
5.3 缺失值分析与处理
在日常数据分析工作中,经常会遇到数据缺失的情况。在处理缺失数据之前,先要了解数据缺失是由什么原因导致的,数据缺失的情况如何,才能更合理地处理缺失数据。
缺失值的产生原因多种多样,主要可分为系统原因和人为原因。
系统原因是系统故障导致的数据收集或保存失败造成的数据缺失,比如数据存储的失败、存储器损坏、机械故障导致某段时间数据未能收集(对于定时数据采集而言)。
人为原因是人的主观失误、历史局限或有意隐瞒造成的数据缺失,比如在市场调查中被访人拒绝透露相关问题的答案,回答的问题是无效的,或者数据录入人员失误漏录了数据等。