前言
生物医学现象变化万端,因果关系错综复杂。多变量、大样本已经成为医学数据的常态,多元数据分析方法在医学研究和实践中的应用越来越广泛。复杂的多元统计分析计算离不开软件。R是一款免费的开源软件,具有强大的统计计算与可视化功能。本书使用R语言,结合精选的医学实例介绍常用的多元统计分析方法。
统计分析方法只有在实际的应用中才能得到最直接、最生动的验证。本着“让非统计专业读者易理解”的原则,本书强调实战和应用,着重介绍多元统计分析的思路和方法、R语言实现和结果解释,尽量淡化统计公式的推导和计算过程。全书共分11章,分别为绪论、多元数据可视化、多元数据的组间比较、聚类分析、判别分析、主成分分析、因子分析、结构方程模型、典型相关分析、偏最小二乘回归分析、对应分析,基本涵盖了医学研究中常用的多元统计方法。为方便读者学习,书末附有多元统计分析中用到的矩阵运算的R语言实现。本书在介绍经典的统计方法的同时,注意吸收与医学科研实践密切相关的前沿方法以及相关R包的使用。
本书假定读者有一定的统计学基础,了解R语言的基本用法。书中配有大量的案例解析和程序示例,以及使用R绘制的图形,所有代码均在R 4.1.2环境下运行通过。书中每一章都配有习题,书末附有习题参考答案。书中示例和习题的数据集和源程序文件可以从异步社区(https://www.epubit.com)下载。书中所有R语言的函数均会带上小括号,以便同普通文本区分开来。书中代码和输出部分以浅灰色背景呈现,采用Courier New字体。除了安装R后自带的核心包,本书还用到了其他一些R包,这些包都可以从R的综合网站CRAN自由获取。在R控制台输入下面的命令可以一次性安装这些包(按照在书中出现的顺序):
> install.packages(c("StatMatch", "philentropy", "vcd", "MVN", "car", + "ggplot2", "corrplot", "GGally", "aplpack", "fmsb", "mclust", + "ggpubr", "MSG" ,"ICSNP", "tidyr", "profileR", "biotools", + "mclust", "ggpubr", "NbClust", "cluster", "class", "klaR", "rpart", + "randomForest", "caret", "FactoMineR", "factoextra", "pls", "lavaan", + "psych", "semPlot", "CCA", "CCP", "gplots"))
本书适合临床医学、公共卫生及其他医学相关专业的高年级本科生或研究生使用,亦可作为其他专业读者和科研工作者进行数据分析的参考书。读者可以从头至尾逐章学习,也可以根据自己遇到的实际问题有选择地在相应章节找到解决方案。
本书参阅了许多国内外教材和资料,并引用了部分示例数据,在此向相关作者表示衷心的感谢。此外,特别感谢人民邮电出版社的王峰松编辑和吴晋瑜编辑在本书出版过程中给予的支持和协助。
由于作者水平有限,书中难免有不妥和疏漏之处,欢迎读者提出批评、意见和建议,我的电子邮箱地址是zhaojun@hbmu.edu.cn。在医学大数据时代,让我们抓住机遇,共同努力与进步!
赵 军
于湖北十堰