终身成长:创新教育新思维
上QQ阅读APP看书,第一时间看更新

2.2 测验分数的等值

具有同质性并不一定具有可比性。两次测试的难度不同,分数的增长可能归因于学生的成长,也可能归因于试卷偏容易。只有两次测试的成绩可以进行合理的转换,可以排除掉试卷难度变化的影响,两次测试才具有可比性。

测验、考试被作为一种尺度来对人的心理特质进行测量。这种尺度应该具有稳定性。不同的考试版本之间应该具有一致性。对于同一个测量对象,不能用这个版本测量得到一个度量,用另一个版本测量却得到相差很大的另一个度量。如果一项测试缺乏稳定性和公平性,缺乏稳定的标准,这次考试一个标准,下一次考试又用另一个标准,对使用这一份试卷的人一个标准,对使用另一份试卷的人又一个标准,那么,不仅会大大影响这项测试的可靠性(信度)和有效性(效度),而且会对有关的决策产生误导,会使考生受到不公平的对待。

尽管测试的编制者在命题过程中总是尽量保持难度的稳定性,但不同试卷之间在难度、分数分布方面的差别很难完全避免。这样,就需要将具有不同难度、分数分布的试卷的分数转换到一个统一的量尺之上,采用统一的量尺对应考者进行测量。这种将一个测验的不同版本的分数统一在一个量表上的过程即等值(equating)。

近几十年来,心理测量学家们对测验等值问题给予越来越多的关注,不仅提出了许多等值方法,而且围绕等值问题展开了多方面的研究。在等值数据资料的收集方面,既可以采用以“人”为媒介的共同被试组设计,也可以采用以“题”为媒介的“锚测验”设计。在等值数据资料处理的理论模型方面,可以依据基于真分数假设之上的经典测验理论(classical testing theory, CTT),也可以依据基于潜在特质假设之上的题目反应理论(item response theory, IRT)。在两种理论模型的框架内,区别于数据收集的方式不同、所采用的计算方法不同等,又存在着多种不同的等值方法。

在我国,迄今为止等值是测验研究中最薄弱的一个环节,许多重要的考试都尚未实现统计等值。

最简单、最直接的等值方法是以“人”为媒介的“共同组等值”。方法是:将两个不同的测验版本施测于同一组考生,根据这组考生在测验上的表现来建立两个版本之间的等值关系,如图2-1、图2-2所示。

图2-1 同日进行共同组等值考试的示意图

图2-2 隔周进行共同组等值考试的示意图

我们假设,在同一天或间隔几天的时间中,考生的水平没有明显变化。如果两次考试的平均分不同,其原因不是考生水平,而是试卷难度。平均分较高的一份试卷,比较容易;平均分较低的一份试卷,比较难。

共同组等值所面临的难题是如何保证考生的动机水平。在正式的考试中,考生会很努力。在以等值为目的实验性考试中,有可能出现考生不认真作答的情况。

为了解决考生的动机问题,可以采用的方式包括:

(1)在正式考试之外,另外组织部分考生进行一次等值考试。向参加等值考试的考生承诺,在最后的成绩报告中,报告两次成绩中较好的一次。

(2)专门组织一次等值考试。为了试卷安全,可以异地举行。例如,将用于上海中考的考试,在南京的一个初中毕业生群体中进行等值测试。等值测试可以作为一次学期期末考试。也可以向参加等值测试的考生承诺,在最后的成绩报告中,报告两次成绩中较好的一次。

在连续的两次考试中,第二次考试可能会产生“练习效应”:由于已经进行了一次测试,所以第二次测试时已经有了经验,表现更好。第二次考试还可能产生“疲劳效应”:如果两次考试安排在上午和下午,下午的考试可能因为疲劳而影响成绩。为了避免“练习效应”和“疲劳效应”,等值考试可以进行“分半交叉设计”。如果参加等值考试的考生为1 000人,两次考试分别在上午和下午进行。那么,上午可以安排500人考标准卷,500人考等值卷;下午安排500人考标准卷,500人考等值卷。

共同组等值的误差较小,数据处理方便,但需要组织专门的等值考试,不仅组织成本较高,而且会受到来自动机水平、练习效应、疲劳效应等方面的误差因素影响。

另一种等值设计是以“题”为中介的共同题等值设计。“托福”、GRE、SAT等著名考试均采用了共同题等值设计。在进行共同题等值时,新试卷中将包含一组与标准试卷相同的共同题,通常被称为“锚题”。例如,一份100题的新试卷中,包含20道来自标准卷的试题。这20道题即两份试卷的共同题。图2-3给出了共同题等值设计的示意图。

图2-3 共同题等值设计的示意图

共同题等值的基本逻辑是:当不同的测验版本被施测于不同的考生样本时,平均分会存在差异。这时,我们不知道造成差异的原因是试卷难度方面的差别,还是考生水平方面的差别。如果两个版本之间存在共同题,我们就可以通过考生在共同题上的表现来估计两组考生的水平,排除了考生水平上的差距,平均分之间的差距就是试卷难度之间的差距。

共同题等值的基本过程是:首先根据第一组考生在锚题和在A卷上的表现,第二组考生在锚题和在B上的表现以及全体在锚题上的表现来估计全体在A卷上和在B卷上的表现,之后,根据全体在A卷上和在B卷上的表现的估计值计算等值转换系数,建立起两份试卷之间的分数转换关系。

表2-3是一个包含30题的测试在经过等值之后得到的新试卷与标准卷之间的分数转换表。从表中可以看出,与标准卷相比,新试卷偏难一些,在新试卷上获得18分,相当于在标准卷上获得了20分。

这种两份试卷的等值转换关系,既可以通过共同组等值方式实现,也可以通过共同题方式实现。

表2-3 两份试卷的等值分数转换表

续表

续表

共同题等值不需要组织专门的等值考试,在操作上比共同组方法便捷许多。但是,这种方法存在“共同题”的曝光问题,在许多高利害的考试中,使用受到局限。在实际的测验等值过程中,还可以有多种更精致的等值设计,可以综合共同题和共同组方法的长处,避免两种方法各自的短处。(1)

2018年10月中国高考英语考试以后,由于10月份考试的试卷明显偏难(许多复读生同时参加了两次考试。根据身份证号,很容易通过这个“共同组”来比较两份试卷的难度。考虑到学习效应,10月份考试平均分数高,不一定说明试卷容易,但平均分数低则可以说明试卷偏难)。为使10月份考生得到公平对待,浙江教育考试院对分数进行了调整,给所有考生都加了分。

信息被泄露后,考生、家长在网上大声声讨。浙江省委马上召开紧急会议,决定取消调分。回归原始分数后,大多数2019年参加高考的考生分数都会降低。考生和家长们为以民主反科学而付出了代价。