11.4 为AMPECS构建SOW_q模型
SOW_q是一个小数连续(因)变量,其值是一个[0,1]区间内的比例或比率。普通最小二乘法(OLS)回归是SOW_q建模的合适方法。与用OLS回归为一个0-1因变量建模类似,我们无法确保预测值处在闭区间[0,1],用OLS回归对SOW_q建模也不能保证预测值处于这个区间内。这里有另一个无法使用OLS回归为SOW_q建模的基本问题:整个实线是OLS因变量的范围,而显然SOW_q并不是定义在这个范围。
用OLS回归对一个取值[4,5]的独立因变量建模,也存在其他理论问题。一个直接为SOW_q建模的可能做法是把SOW_q转换成logit值,也就是说,logit(SOW_q)=log(SOW_q/(1-SOW_q))。这个转换公式很清楚,在其他情况下也经常使用,但是如果在闭区间的两个端点(即0,1)聚集了太多观察值,则不使用。
帕普科和伍德里奇首先尝试了这种方法,他们把对一个小数连续(因)变量的建模称作小数回应回归法(FRM)[6]。自从他们1996年发表那篇重要论文之后,一直有人在继续优化这个方法的理论细节。经过对比,还没有发现比这个初始FRM更好的新方法[7]。这篇FRM文献包括了不同模型叫法的参考文献(如分数逻辑斯谛回归、小数logit模型、小数回归法)。
我使用二值逻辑斯谛回归法构建SOW_q模型,代码由Liu和Xin编写[7]。这个程序很好用,因为采用了二值逻辑斯谛回归,所以,得出的结果很相似,也易于解释。这个方法的步骤如下:
1)原始AMPECS数据(数量=30 212)被重复存储,称为DATA2。所以DATA2包含了2倍的观察值。
2.因变量Y是二值变量,并被加入DATA2。
a.对DATA2的前后两半数据,Y分别取值1和0。
3)Y等于1和0的观察值分别以SOW_q和1-SOW_q为其权重系数。
4)基于一系列带权重系数的预测变量,对Y进行逻辑斯谛回归。
5)SOW_q估计值是我们熟悉的最大似然估计值。
6)有趣的是,Liu和Xin没有提到双重样本对p值的影响。首先,我们用自助法(bootstrap)将DATA2的数量降到30 000,比原始数据量略小,以去除DATA2中的噪声。其次,原始数据的p值具有表面效度,不易引起不安。
7)SOW_q模型的十分位分析最终确定了模型的性能表现。
以上步骤的子程序见附录11.B。