预测模型实战:基于R、SPSS和Stata
上QQ阅读APP看书,第一时间看更新

1.1.3 临床预测模型

临床预测模型是指利用多因素模型估算患有某病的概率或将来某结局的发生概率,主要分为诊断模型(diagnostic model)和预后模型(prognostic model)。

诊断模型主要基于研究对象的临床特征,预测当前患有某种疾病的概率,多见于横断面研究,病例对照研究;预后模型则是针对患有某种疾病的研究对象,预测将来疾病复发、死亡、伤残等转归的概率,多见于纵向研究。

临床预测模型建模策略依旧采用的是“先单后多策略”,但是其重点在于对Y预测的准确性,即不再对模型中每一个X是否P<0.05纠结,只要模型整体预测效果好,可以包容P>0.05的X在模型内的存在,此时模型优劣判定往往按照AIC准则进行,图1-6和图1-7反映了预测模型先单后多的建模策略。

图1-6 临床预测模型先单后多Logistic回归建模策略展示

图1-7 临床预测模型先单后多COX回归建模策略展示

临床预测模型的建模,有一个“门当户对”原则,这个虽然统计教材中没有说,但确实是数据处理的经验累积。“门当户对”是指,我们研究的变量从性质而论,有定量与定性两类,建模时尽量满足因变量与自变量的定量对定量,定性对定性。这就是“门当户对”原则。

临床预测模型中Logistic回归的因变量为二分类变量(注意临床预测模型中的Logistic回归只是Binary Logistic regression,其他多项和有序资料的临床预测模型方法尚不成熟);COX回归的因变量是二分类+时间;所以构建模型时的自变量(风险因素或预测因子)如果是定性则会较好,因为满足“门当户对”的原则,如果Logistic或COX回归中,纳入的是定量变量,也许统计上有意义,也能解释,但是专业上可能不太容易解释。

比如说年龄,如果直接代入,那结果解释则为年龄每增加1岁,发生某种疾病或结局的风险增加多少,统计上没问题,但是试问大家,哪种疾病只要增加1岁,就会增加专业上有意义的风险呢?所以,为什么大家经常看到,很多文章会把年龄进行分组,如小于60岁和大于等于60岁等。

故而,您再看上面的图1-6和图1-7,其中的那么多原本是定量的指标,均根据专业进行了变量降维,从定量降维为定性,如图1-7中的年龄,分为大于等于69岁和小于69岁。看到这您也许会心存困惑,为什么年龄降维分组,在不同文献中往往不一样呢?是的,年龄的降维分组,文献中不下10种方法,没有固定的套路,需要您根据自己的专业或者数据的特征进行降维,具体的请看本书相关章节。