现代卫生信息技术与应用
上QQ阅读APP看书,第一时间看更新

五、数据质量管理技术

数据质量和数据管理是大数据分析技术的重要方面。在学术研究和商业应用领域中,高质量的数据和有效的数据管理能够保证分析结果的真实和有价值。主要的数据质量和数据管理技术有ETL、统计分析等。
ETL工具负责将关系数据、平面数据文件等分布的异构数据源数据抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。
统计分析方法有假设检验、显著性检验、差异分析、相关分析、T检验、方差分析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步回归、回归预测与残差分析、岭回归、logistic回归分析、曲线估计、因子分析、聚类分析、主成分分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析(最优尺度分析)、bootstrap技术等。