计算机自适应语言测试模型设计与效度验证
上QQ阅读APP看书,第一时间看更新

2.1 项目反应理论的基本假设

项目反应理论有两大基本假设,即单维性与局部独立性。无论何种情况下,在应用项目反应理论前都应该检测这两项基本假设是否得到满足。

2.1.1 单维性

项目反应理论的第一个假设为单维性假设。该假设认为:一项测试中的所有项目均只测量某一单一能力或特质。在语言测试领域,语言能力的单维性一直是一个颇受争议的话题。一些研究者认为语言能力是一个单一构念,一个总的能力因子便可完全解释语言测试中的共同方差(Oller, 1976; Oller &Hinofotis, 1980)。另一些研究者则认为语言能力是一个多维构念,不仅存在一个总的语言能力因子,还存在听、说、读、写等微技能因子(Morgan &Mazzeo, 1988)。目前较为公认的一种观点是:所有测试在一定程度上都是多维的(Choi & Bachman, 1992),单维性只是一个度的问题,而非存在与否的问题(Laurier, 1999)。

对于测试的单维性,学界提出了不同的检验方法,如信度数据(Hattie, 1985)、成分分析法(Hattie, 1985)、探索性因子分析(Hattie, 1985)、验证性因子分析(Wang, 2009)、项目反应理论拟合度数据(Yen, 1984; Hambleton &Swaminathan, 1985)、DETECT(Zhang & Stout, 1999),以及DIMTEST程序(Stout, 1987; Stout et al., 2001)等。目前使用最为广泛的方法是探索性因子分析(Jang & Roussos, 2007)。如果第一因子能解释总方差的20%以上,则说明该测试满足单维性假设(Reckase, 1979)。或者,如果第一因子特征值与第二因子特征值的比例较大,也表明测试满足单维性假设(Lord, 1980),但迄今为止学界在确定测试符合单维性假设的临界值这一问题上没有一个统一的标准。

2.1.2 局部独立性

项目反应理论的第二个假设为局部独立性假设。该假设认为考生在各道题目上的答对概率相互独立,即考生的潜在能力是影响其作答的唯一因素,当排除这个因素的影响后,考生在不同题目上的作答行为之间不存在任何关系(Embretson & Reise, 2000; Yen, 1993)。但是在大规模英语测试中,局部独立性假设往往会被违反,因为英语测试中常见的题型是题组,即若干个选择题基于同一听力或阅读篇章。在这种情况下,考生在对题组中某一个项目作答时很容易获得对题组中另一项目的作答线索,从而导致局部独立性假设被违反(Hendrickson, 2007)。大量文献资料表明,在局部独立性假设被违反的情况下,采用标准的二级计分项目反应理论模型进行项目分析,会导致一系列问题,如对项目参数与能力的估值不准确(Ackerman, 1987; Chen & Thissen, 1997; Bradlow, 1999; Tuerlinckx & De Boeck, 2001),对测试信息量,即测量精确度的估值过高(Thissen et al., 1989; Sireci et al., 1991; Yen, 1993; Wainer, 1995; Wainer & Thissen, 1996; Zhang, 2010)、等值误差过高(Lee et al., 2001;Li et al., 2005)以及模型与数据的不拟合(Marais & Andrich, 2008)等等。此外,局部独立性假设被违反可能会带来一个新的维度,影响考生的答题反应,从而使单维性假设也无法得到满足。

解决上述问题的一个有效方法是采用多级计分项目反应理论模型。该方法把基于同一篇章的若干个题目视为一个整体,即把考生在同一题组所有题目上的得分相加,作为一个多级计分题目,运用多级计分项目反应理论模型进行参数估计(Rosenbaum, 1988; Thissen et al., 1989; Wilson & Adams, 1995;Lee, 1998)。需要指出的是,局部独立性在任何情况下都是一个实证现象,而非先验假设(Steinberg & Thissen, 1996),因此,在实证研究中需要首先检验局部独立性假设是否被违反。否则,盲目地假定基于题组的项目会因题组效应而无法满足局部独立性假设,从而使用复杂的项目反应理论模型,会导致更大的项目参数估计误差值(DeMars, 2006),以及更大的能力估计误差值(Yang et al., 2012)。

在单维性测试中,局部独立性假设其实等同于单维性假设(Lee, 2004),不同之处在于局部独立性假设聚焦较微观的项目对(item pair)层次,而单维性假设聚焦较宏观的测试总体层次。因此,单维性假设的检验方法可作为对局部独立性假设是否满足的初步估计。但是,研究者也提出了一系列从项目对层次检验局部独立性假设的统计指标,如Q3值(Yen, 1984)、局部独立性χ2值(Chen & Thissen, 1997)、局部独立性G2值(Chen & Thissen, 1997)、结构方程模型软件的修正指标(Thissen & Steinberg, 2010)等。前三个统计指标通常用于二级计分项目(Ho, 2010),第四个统计指标,即结构方程模型软件的修正指标,则通常用于项目较少的测试或问卷调查,或利克特量表(Thissen & Steinberg, 2010)。

需要特别指出的是,Chen与Thissen(1997)提出的局部独立性χ2值被Thissen(2009)拓展为标准化局部独立性 χ2值,可以同时处理二级计分项目与多级计分项目(Cai et al., 2011)。标准化局部独立性 χ2值可以直接从IRTPRO 2.1软件中的单维项目反应理论建模中得出。具体计算方法是:比较每对项目的期望频率与观察频率,并进行标准化处理,从而使得具有不同反应类别数量的项目之间具有可比性(Thissen, 2009; Cai et al., 2011)。该数据为标准化数据,因此如果该数据大于4,则表明该项目对之间违反了局部独立性假设;如果大于10,则表明严重违反了局部独立性假设。