02 智商
今天是我的审判日
“会痛吗?”我问妈妈。我们开车沿着蜿蜒曲折的道路向学校心理咨询办公室驶去。“不会的斯科特,一点儿也不痛。”妈妈安慰我说。于是我不再去担心这个问题了。“好的。可要是那人发现我真的愚蠢到家,必须去上那种很特殊的特殊学校,怎么办?”妈妈叹了口气,想尽办法来减轻我内心的恐惧,可这种恐惧依然挥之不去。我知道紧要关头到了。
今天的测验结果将决定我接下来的一年何去何从。四年级马上要结束了,可我在读的公立学校打算把资源教室撤掉。他们要把有学习障碍的学生重新扔回到额外支持极少的主流班级,我父母为此寝食难安,决定带我去看一个有执照的学校心理专家。我很害怕参加他的测验,尤其想到几年前我在一次智商测验中的糟糕表现,更让我恐惧不已。我真正想去的学校是当地的一所私立名校——哈弗福德男校预备学校(Haverford Boys Prep)。每次上学经过那里时,我都会用艳羡的目光打量学校里身穿整洁校服的学生。我心里清楚得很:今天就是我的审判日。
“嗨!”我走进测验室,害羞地打了个招呼。“你好,斯科特。”这位心理专家微笑着说,“不要有压力,我们只是做几个拼图游戏而已。”他的话让我感到更加紧张。他把一些积木放在桌上,让我参照给出的图片把积木拼在一起。我尽量不让自己分心,可还是感觉到自己开始出汗了。我从来都不擅长做空间题目,就连去我家附近街道尽头的那个公交站都常常会迷路,通常都是妈妈开车送我过去。
我把积木混合在一起,尝试不同的组合,但依然感觉毫无进展。“你行的,”心理专家鼓励我说,“相信自己!”然后他在他的笔记本上写了些什么。我继续浑身冒汗。
做每一道题目的时候我都不断怀疑自己。对每一道新的题目,我都能看到多个可能的答案,我反复问自己:为什么我必须得从现有答案中选择一个呢?如果我可以证明不止一个答案是正确的又会怎样?如果我把题目稍作修改,他会介意吗?
测验结束了,我垂头丧气地离开了测验室。“他是不是发现我真的很笨?”那一周晚些时候,在吃晚饭时我问我的父母。“没有,”爸爸深深地叹了口气说,“不过,他的确注意到了你测验时的焦虑。事实上,他认为你是他见过的最有创造力的学生之一,可惜这个测验没有创造力得分这一项。”
我最担心的事情终于发生了。上哈弗福德男校预备学校的梦想破灭了,他们把我从现在的公立学校中“揪”了出来,扔到一所专为学习障碍儿童开设的学校。就这样,一次测验,我的命运便被一剑封喉。
智商测验之父——比奈
现代智商测验的发明者阿尔弗雷德·比奈(Alfred Binet)是一个孤独的人。学生时代的比奈有些漠视一切,他在一段短暂的法律专业学习之后宣称:“这只是一个男人尚未选定事业前的工作。”1后来他在巴黎萨博特慈善医院(Salpetriere Hospital)让-马丁·沙尔科(Jean-Martin Charcot)的神经学实验室里做了短期的志愿者。37岁时,比奈获得了自然科学博士学位,他的博士论文主题是“昆虫的肠下神经系统”。但他主要的精力不是放在以上这些事情上。
大约从22岁起,比奈大部分时间都泡在法国国家图书馆(French National Library),啃那个时代主要思想家关于人类行为的著述。很快,他便开始在心理学领域著书立说。他在23岁时发表了第一篇论文,并在短短6年后出版了他的第一本著作。他在论文和著作中,从广阔的视角探讨了各种心理过程,包括注意力和知觉。
虽然他申请的三个教授职位全部被拒绝了,但他最终谋得了索邦大学生理心理学实验室主任这一职位(他任此职直到去世)。千万别被这个花哨的头衔蒙蔽,这可是一个与法国主流学术界相脱离且没有一分钱报酬的职位,维系他心理学研究的唯一经济来源是他的家庭财产。
而这一点却使得比奈这位多产学者的成就无论从质量还是数量上来讲都更加出类拔萃。从1890年直到去世,比奈发表的著作、论文和评论超过200种,几乎涵盖了心理学的所有领域。比奈的研究在他所处的时代来说具有惊人的原创性。他生活在一个似乎人人都为异常行为着迷的时代,而与他们不同,比奈深入探讨了各种不同形式的人类心理活动。他着迷于个体差异,研究了人类心智的各个层面,包括意识、意志、注意力、感觉、知觉、美学、创造力、暗示、催眠、认知风格、爱和情欲恋物癖、痛阈值、心理疲劳、语言发展、记忆发展以及概念发展。
比奈不满足于仅以临床群体为研究对象,他的研究对象群体包括儿童、成人、精神残疾者及其他临床病症患者、象棋专家、心算专家、专业演员、导演、作家和艺术家等,人群之多元令人惊叹。
正如发展心理学家罗伯特·西格勒(Robert Siegler)所说:“极具讽刺意味的是,人们如此强烈地认为比奈的最大贡献就是将智力简化成了一个数字——智商分数,然而比奈的研究中反复出现的一个主题却是智力的显著多样性。”2
比奈的超前研究令其同时代的学者望尘莫及。他在普通文本记忆、目击证人证词、群体压力导致的从众心理、内在动机、国际象棋技艺和心算等领域的工作为这些领域的现代研究拉开了序幕。甚至他在认知发展领域的工作也领先于皮亚杰在该领域的一些开创性研究成果。如罗伯特·凯恩斯(Robert Cairns)所说:“实验儿童心理学花了70年才赶上比奈在认知和记忆组织方面的一些深刻见解。”3
最了不起的是,比奈完全是自学成才的。1901年,比奈在给朋友的一封信中写道:“我没有受到任何老师的教导,完完全全属于自学。现今我在科研上取得的成就完全是凭借我一己之力获得的,没有任何人曾帮助过我,一个也没有。”4
究其原因,部分乃个性使然。通过对比奈的家人、朋友和同事的采访,我们逐渐看到一个害羞、喜欢独居、精力充沛且全身心投入工作的比奈的形象。
比奈去世后,他的女儿玛德琳写下的一番描述或许捕捉到了他主要的性格特点:
总的来说,我的父亲是一个活泼的人,他喜欢微笑,说话通常具有讽刺意味,但举止文雅、判断力强,当然也通常心存疑虑……他本性善良、毫不做作、坦诚直率,但他鄙视一切形式的平庸。他对科学研究者十分亲切和蔼,但他对浪费他时间和打断他工作的人非常冷酷无情……他似乎总是在沉思。5
然而,比奈大多数辉煌的研究成果却被他所处的时代忽略了,这是一个莫大的悲哀。究其原因,毫无疑问主要在于他的个性以及他与主流学术界的疏离。他从未离开过法国,也未能在学术会议上报告他的工作。由于他没有一官半职,因而也没有大量的学生来继续他的事业。用西格勒的话说:“比奈的产品极强,但营销甚弱。”6
第一个智商测验问世
1894年对比奈来说意义深远。这一年,他拿到了自然科学博士学位,创办了《心理学年报》(L’Année Psychologique,至今仍然存在),出版了一本关于日历推算的心理学的书,并与他的合作者维克托·亨利(Victor Henri)及其他索邦大学实验室的科学家合作出版了一本书,发表了许多论文,涉及暗示、记忆、性格和教育心理学等领域。
而比奈与亨利在1894—1898年的合作对第一个智商测验的问世尤其重要。比奈与亨利一道寻求全新的方法以对“个体复杂、多样的能力倾向进行精确的观察”。71895年,他们宣布了开发智力测试的构想,勾勒出了一个雄心勃勃的计划,将对记忆力、意象能力、想象力、注意力、理解力、暗示力、审美情趣、道德情操、肌肉力量/意志力,以及运动能力/手眼协调能力等10项不同的能力进行测量。
尽管较低级的感觉过程也被他们列入计划,但他们明确指出,对更复杂的推理能力的测量可以成就更佳的智力测试。这一点与高尔顿、詹姆斯·卡特尔(James McKeen Cattell)及其他同时代的智力研究人员的想法不同。他们认为:“要研究两个个体之间存在的差异,从最能体现智力的最复杂的过程着手是必要的;相较而言,考量简单、基本的过程,其必要性则次之。”8该观点预示了他们的后续发现。
作为第一步,比奈开始观察甚至测试他的两个女儿玛德琳和爱丽丝,让她们做各种认知和人格测验。他为自己女儿做的很多心理测验今天依然在使用,包括说出单词、在单词之间建立联系、补充句子、描述物体和图片、回忆各种信息,这些信息包含图片信息以及陌生的外语句子。
有趣的是,比奈最初关于他的孩子的分析是定性分析。比奈信奉定性分析的重要性,密切关注错误、认知方式和力量模式。比奈为他的孩子在线性、常规性和原创性等维度的思维过程打分。在他最早发表的关于其观察成果的论文里,他详细深入地讨论了两个孩子身上的诸多不同点,指出玛德琳表现出了极大的“稳定性”,能够自愿、随意地将注意力聚焦在某事上。他还注意到玛德琳更加务实,但想象力差。相反,爱丽丝表现出更大的“易变性”,她对自己不感兴趣的材料学习很困难,但表现出更加丰富的想象力。9反思型(reflection)和冲动型(impulsivity)的区别似乎一直以来都是比奈非常关注的一个话题。他在1903年出版的著作《智力的实验研究》(The Experimental Study of Intelligence)一书里介绍了他的最终观察结果。当时他的孩子们已经步入了青春期。10
在他的研究成果问世之后他补充说道,是时候继续前进了。他注意到女儿性格上发生的巨大变化,他评论说对她们的最新描述与几年前相比已不太适用。比奈深信,个体的心理发展从童年向成年的迈进必须予以重视,他认识到这样的发展进程很有意义。
“假使有人成功地测量了智力,即对推理、判断、记忆、抽象等能力的测量(对我来说这并非绝无可能),那么他会发现,代表一个成人智力发展平均水平的分数与代表一个儿童智力发展平均水平的分数将呈现完全不同的关系。”11
宛如命中注定,大约在1892年,西奥多·西蒙(Theodore Simon)找到了比奈。当时的西蒙是一位年轻的实习医师,可以接触到临床病患人群。西蒙向比奈请教如何教育他在精神科实习时遇到的“不正常”人群。虽然没有正式的学术头衔,比奈还是同意指导西蒙写博士论文,如此促成了心理学历史上最为重要的合作之一。
在19世纪末,西欧和北美众多国家的商界领袖和社会精英联合起来推动了公共义务教育的普及。然而这里出现了一个严重的问题:如何对如此多样化的儿童群体进行教育?一些倡导团体、教师组织和教育心理学家展开游说,让特殊学校来满足有心理障碍儿童的需求。
天赋实验
1904年10月,千载难逢的机会出现了。时任公共教育部长的约瑟夫·肖米耶(Joseph Chaumie)设立了一个委员会,该委员会旨在识别需要接受另类教育的学生。作为法国集团(the French group)的积极成员,比奈看到了可以完成其测验并将其付诸实践的机会,比奈和西蒙立即投入工作。关于智力,他们提出了最接近其操作性定义的观点:“我们认为,智力包括一项根本的能力,其变更或缺失对现实生活至关重要。这种能力就是判断,或者称作理智、实践感、主动性,亦即适应环境的能力。智力的基本活动包括良好的判断、理解和推理能力。”12
比奈认为,判断有三个显著的方面:指向性(direction)、调整性(adaptation)和批判性(criticism)。指向性是指专注于任务且确定解决问题必须要做的事情是什么的能力;调整性是指选择恰当的策略以及监控策略是否有效的能力;批判性是指对自己的思维和行为做出批评,并以此为基础做出改变,以提高任务表现的能力。
人们认为比奈和西蒙的评估对儿童来说具有“游戏的气息”,他们强调对被试进行鼓励。他们使用了比奈多年来开发的许多测验项目,以创纪录的时间(只花了短短一年)完成了第一个版本的测验,促成了比奈-西蒙智力量表(Binet-Simon Intelligence Scale)的问世。13依照他们对智力的界定,最初的测验项目只涉及日常实用技能,包括说出人体各部分名称、说出图片上物体的名称、下定义、重复一串数字或将句子补充完整、描摹一个菱形、说出纸和纸板的区别或苍蝇和蝴蝶的区别,以及在1分钟内找出尽可能多的押韵词的能力。
比奈和西蒙明确指出了他们测验的目的:
我们的宗旨是要测量一个孩子的智力是正常的还是落后的。因此,我们应当去研究这个孩子在当前阶段的状况,仅此而已。我们不关心他的过去和未来是怎样的,因此我们应当忽视他的病因,同时我们也无意区分他是后天性愚钝还是先天性白痴……我们也无意提供预后,也不去回答其智力落后是否可以治愈以及是否不可避免的问题。我们仅把测验局限于确定他目前的真实心理状态上。14
他们的测验用时20分钟,包括30个项目,按照难度递增的顺序排列,每一个测试项目旨在反映不同年龄的典型儿童的能力。他们最开始为50名3~11岁的儿童做了测验,在所有30个项目中,被认为是“白痴”(idiots)的儿童基本只能做到第6项,而“低能”(imbeciles)儿童很少能超过第15项。15在第一版的测验中,他们提出了“五部分归类方案”,包括盲、聋、医学上异常、智力落后和情绪不稳定。
伴随测验,他们也附带了一些警告说明。他们明确指出他们的测验衡量的不是一个人智力的绝对水平。他们警告说,他们的测验不能像直尺一样提供精确的测量。相反,他们的测验分数只不过是一种分类而已,这种分类是与其他同龄人的测验分数相比较而言的。比奈无疑受到了他在图书馆啃书期间读到的19世纪英国哲学家约翰·穆勒的影响,穆勒曾写道:“关于人性的科学……远远不及当今天文学上所达到的精确标准。”16
比奈和西蒙也承认许多智力以外的因素可能会影响到测验结果,例如不自然的测验状态以及测验可能带给儿童的恐惧感等。17他们还提到一些长期的影响因素,如生活背景、成长经历、健康状况和努力程度等。鉴于这些潜在影响因素的存在,他们强调对个体的测验结果应当仅在拥有相似生活背景的个体之间进行比较。18最后,他们指出持续重新测验的重要性,因为个体的成熟速率和智力体验不同,其智力的发展进步速率也不同。比奈和西蒙后来对测验进行了几次修订。修订后的量表由56个项目组成,参照各年龄段通过相应测试项目的儿童所占的百分比(他们测验了约200名年龄介于3~15岁的儿童),确定难易程度并进行排序。最重要的是,他们提出了智力年龄(metal age)的概念。举个例子,如果一名儿童通过了10岁级别的测验,但没有通过11岁级别的测验,那么便认为这个孩子拥有典型10岁儿童的智力,不管他的实际年龄有多大。1911年版量表的适用范围扩大为3岁至成人,一共分为11个层级,每个层级包含5个项目。19
值得注意的是,比奈-西蒙智力量表从未催生出智力商数(IQ)。比奈去世多年后,西蒙曾表示,将智力归结为一个简略的智商分数偏离了他们设计测验的初衷。20虽然比奈和西蒙的初衷是高尚的,但是我们必须得搞清楚:当时大多数法国人只不过是想把有智力缺陷的儿童剔除掉,以免拖累“正常”的学生。21对于那些具有“另类”教育需求人群的教育问题,当时并没有成型的解决方案。他们关注的重点是将有智力缺陷的儿童甄别出来,而不是为他们提供补救措施。
比奈和西蒙为此深感担忧:“成为特殊学校的一员永远不应作为区分儿童的标志,请不要为这个标签做辩护,万不可以此对儿童盖棺定论。”22
可惜啊,比奈提出的警告及注意事项几乎完全被法国当局当成了耳边风。比奈发现他又一次被边缘化了。1909年4月15日,法国立法机关发表了一项声明,宣布关于接受特殊教育的资格的判定,应当由一名医师、一位督学以及一名主任或教师组成的团体来做出。立法机构压根儿没有提到心理学家,也没有提到用智力测试对学生进行评估。23比奈和西蒙如此巨大的付出竟然在自己的祖国大地上被忽略了。比奈深感自己是个失败者。
然而很快,他们的测验像野火一样蔓延到全球各地,尤其是美国。可令比奈骇然的是,他们使用测验的目的是他始料未及的。在他生命的最后阶段,他怒笔写下了下面的句子,以抨击认为测验分数低的儿童永远不会取得某些成就的观点:
“永远不会!”多么偏激的用词!这种盖棺定论是多么可悲!然而似乎竟有少数现代哲学家对此言论施以道义上的声援,断言个体的智力是一成不变、无法提升的。我们必须提出抗议,并用行动来反抗这近乎残忍的悲观论调。我们会证明,这样的说法毫无根据……我们能够通过练习、培训以及最重要的——方法,来提升我们的注意力、记忆力和判断力,从而真正提高我们的智力水平。24
为了表明智力是可修复的,比奈开发了各种“心智整形术”(mentalorthopedics),即智力练习,但是太晚了。1911年10月28日,比奈中风去世,年仅54岁。大规模测验运动在美国刚刚兴起,然而这些测验的拥护者们对人类智力所持的定义却完全不同。
哪些人属于“智力孱弱”
亨利·戈达德(Henry Goddard)是新泽西州芬尼兰训练学校(Vineland Training School)的校长,他曾两次接触到比奈-西蒙智力量表,第一次是在1908年春到访布鲁塞尔途中,一年后又一次接触到。但是两次他都不以为然,没有认识到这个测验与他的工作对象——“智力孱弱”个体的相关性。戈达德后来指出:“这份量表的批评者中也许没有一个比我第一次读到时更抗拒它了。按照那种方法将智力划分等级似乎不太可能,未免也太容易、太简单了。”25但是这颗种子已经埋下了。
戈达德尝试了一下这个测验,很快便为之折服。他指出:“量表的使用带给我们惊喜和满足。它满足了我们的需求。根据量表对儿童进行分类的做法与我们的制度经验是契合的。”显然,他一下子就被这份量表征服了。戈达德立即将比奈-西蒙智力量表的1908年版翻译成英文,成为该测验的美国“首席宣传官”。他在学术会议上宣读自己的研究结果,表明该测验能够可靠地划分不同程度的“智力孱弱”个体,并在他1914年的著作《智力孱弱》(Feeble-Mindedness)里,采用高尔顿有缺陷的研究方法得出智力孱弱的血脉在家族当中流淌,因而具有遗传性的结论。
尽管戈达德不能穿越时空给芬尼兰训练学校儿童的老祖宗们做比奈的测验,但是他对自己的使命有清晰的认识,并以他自己对智力的定义为指导,他对智力的定义是:“一个受制于与生俱来的神经机制的单一心理过程……除非遭遇能够造成该机制部分破坏的重大变故,否则该机制受后天因素的影响微乎其微。”
想必戈达德的说服力颇强,因为他说动了新泽西州当地学区的负责人允许他给当地普通学童做测验。1911年,戈达德在题为《两千名正常儿童接受比奈智力量表测验》的论文中发表了他的研究成果。
教育工作者也开始为这个量表狂热。1914年,有几十个学区采用了比奈和西蒙的测验。截至1916年,比奈和西蒙在1908年发表的论文(由戈达德翻译)被复制分发了22 000份,连同发放了88 000套空白测验题目。26
让我们把与智商测验相关的一切都放在历史情境中看一下。在戈达德将目光投向比奈的测验之前很长一段时间里,社会上已经出现了要求提出优生方案的巨大公众压力,这些方案不只是针对智力孱弱群体,而是针对范围广泛的“不受欢迎者”(undesirables),包括精神失常者、癫痫患者、惯性酗酒者、罪犯、妓女、流浪汉和贫民。在戈达德将比奈的测验介绍给从事智力孱弱儿童教育的教师之前,已经有6个州出台了成文的绝育法案,许多其他的州也出台了禁止“不受欢迎者”之间通婚的法律。27
因此并不能指责智商测验运动是美国绝育事件的唯一原因。尽管如此,戈达德也非完全无辜。他的确让更多公众关注到了智力孱弱这个“问题”,并且智商测验也的确被用来为绝育做辩护。截至1964年,美国约有6万人被强制实施绝育手术,而在德国,这一数字更加庞大。其中近乎一半受害者的绝育理由是智力缺陷,而智商测验无疑为智力缺陷的诊断提供了依据。
“智商王国”的等级
对比奈-西蒙智力量表兴趣盎然的美国人并非只有戈达德一个。斯坦福大学心理学教授刘易斯·推孟(Lewis Terman)同样为之倾倒。他与戈达德都相信量表可以用于评定一个人是否“智力孱弱”,是否应该受到“社会保护”,然而与戈达德不同的是,推孟看到了量表的另一个用途。他对智商分布的上端部分很感兴趣。他写道:
事实上,早在1908年比奈-西蒙智力量表发行之前,年龄差异对智力的影响鲜为人知。当时的心理学家们未能意识到一名12岁的愚钝儿童与一名8岁的正常儿童之间惊人的相似之处。一定程度的智力落后或加速发展对未来心理发展的重要性并没有得到他们的认可……当比奈试行他们的1908年智力量表时发现,该量表在鉴定天赋优异儿童方面的价值一目了然。很明显,以任何合理的标准去界定,智力年龄增速显著的儿童都比智力年龄不超过实足年龄(chronological age,即实际年龄)的儿童更聪颖。28
推孟迫不及待地开始将比奈量表付诸实践,他修订了1911年版的比奈-西蒙智力量表,在1916年推出斯坦福-比奈测验(Stanford-Binet test)。29从本质上讲,推孟的测验版本可谓焕然一新,他新增了40个项目,每个年龄6个项目,涵盖3~14岁的儿童(比奈-西蒙智力量表为每个年龄设计了5个项目)。例如,9岁儿童的测验包括以下类似项目:
1.日期:今年是哪一年?今天是本周的第几天?
2.将5个重物从重到轻排序;
3.心算;
4.倒背4个数字;
5.用3个特定的词造一个句子;
6.找韵律。
起初,比奈和西蒙的测验对象是大约50名被教师评定为“智力一般”的儿童,而推孟则选择了大约1 000名4~14岁的儿童。他所选择的儿童来自各所学校,学生们社会阶层分布平均。与比奈的量表相比,在不同项目的难度层面,这样的大型标准化样本给予了推孟更为精确的信息。以这些信息为基础,推孟认为有必要将比奈量表中的大部分项目按照不同的年龄阶段重新组合。
评分步骤是推孟取得的另一项进展。他保留了比奈的“智力年龄”理念,但也借鉴了德国心理学家威廉·斯特恩(William Stern)的智力商数观点——智力年龄除以实足年龄。30这一公式能将那些智力年龄相同但实际年龄不同的人区分开来,因此十分有用。推孟不喜欢小数点,因此他决定将斯特恩的公式乘以100以得到整数。由此,计算智商的公式就变成:
智商=智力年龄/实足年龄×100
(IQ=MA/CA×100)
天赋实验
让我们来观察3名“智力年龄”相同的实验对象,以便了解该公式是如何运作的。正如表2-1所示,3人的测验得分相同(换言之,“智力年龄”相同),但他们的智商将取决于他们的实足年龄。毋庸置疑,智商公式是推孟对比奈量表的一大改进,然而它的弱点也很快显露无遗。对成人而言,智商意味着什么?假设你的实足年龄为60岁,而智力年龄为50,那么你的智商就是83;但如果你的实足年龄为50岁,智力年龄为60,那么你的智商就骤然升至120。我们真的能推断智力年龄在20岁和10岁之间的差别与60岁和50岁之间的差别相同吗?我希望大家能从中觉察出问题所在。
表2-1 推孟智商公式实验
在对成人进行测验时,推孟的应对之策即在公分母实足年龄上加16。后来他又将该数字改为15,因为他发现智商的平均值差不多在这个年龄停止了增长。31当然,鉴于他从未真正测验过18岁以上的人群,因此这不过是他的猜测而已。对此,推孟的辩解是:“15岁的智力年龄也就代表了16岁及以上被试智商的常模。”当代衰老研究并未证实这一说法,公平而言,他对这项研究也是一知半解。
推孟认识到智商的另一个棘手“问题”——易变性。并非每个年龄群体都表现出相同的智力增长幅度。智商的平均浮动幅度为16点——根据年龄阶段不同有12~20点的差异。起初,推孟仅将浮动幅度列为偶然现象,然而他发现,12岁的年龄群体中呈现出了20点的变动,这样显著的数字是很难被忽视的。最终,他将这种现象归结为“青春期的开启”,尽管无人向他证明青春期与认知发展速率相关。
显而易见,推孟不得不摒弃智商这一理念,表明测验分数偏离平均分数程度的标准分数更合适,因为标准分数将年龄造成的浮动纳入了考虑范围。然而完全摒弃智商理念并非易事,因为智商已经渗透到美国公共教育系统的“灵魂深处”,且标准分数更为繁杂,不易被学校心理专家参悟。因此在1973年的修订版本中,推孟和梅里尔(Merrill)保留了智商分数,但加入了一份转化表,学校心理专家可将智商数值转换为标准分数。
那么分级是如何进行的呢?推孟不得不为每个波段的智商分数定义一个标签,以便学校心理专家解读各个分数。在第一版斯坦福-比奈测验的基础之上,推孟引入了世界上第一个智商分级系统,见表2-2。
表2-2 世界上第一个智商分级系统
以上并非是推孟智商分级系统的全部内容,还包括下面这些:
智力孱弱群体中,智商介于50~70之间的人大部分为愚鲁(moron,高度、中度、低度),那些介于20或25至50的群体则被分级为低能,低于20或25的则为白痴。32
如果你深究的话,可以发现推孟的偏见所在。他认为区分“智力孱弱”的不同级别用处不大,声称“低于智商平均值的每个个体都或多或少地存在智力孱弱”。需要明确的一点是:对智商分级的第一种方案完全是基于一个研究者对自己测验对象的个人之见。推孟与戈达德都深信自己的测验所评估的“智力孱弱”状态是永恒不变、代代相传的。
有一点可以确定,推孟的结论经久不衰。他的测验不仅成为所有新的智商测验的黄金标杆,他所制定的智商分级标签还影响了整整一代的智商分级模式。有趣的是,连推孟都为自己的影响力感到震惊。第一版测验发行大约15年后他写道:“我知道我对比奈量表的改编比其他同期的测验都先进,但我当时没想到它竟如此风行,我还想象着它可能在数年间就会被更好的测验所取代呢。”33
然而事实并非如此。
离差智商:钟形曲线上有所有人的智商分布
斯坦福-比奈测验在半个世纪里都是美国智商测验的首选。当美利坚举国上下都沉浸在大规模智商测验的狂热中时,纽约市贝尔维医院(Bellevue Hospital)的首席心理学家戴维·韦克斯勒(David Wechsler)却对智力表达了不同的见解。韦克斯勒对实践的敏感度是对智商测验建立初衷的回归。韦克斯勒与比奈都将智力视为一个人理解、应对其所处环境的能力,并将智商测验视为揭露一个人人格中重要信息的临床工具。
韦克斯勒于1939年创造的韦克斯勒-贝尔维智力量表(Wechsler-Bellevue Intelligence Scale)是智商测验历史上一大重要成就。34自此,他的很多决定都影响了后世智商测验的编制。韦克斯勒所取得的部分成就是技术层面上的,他提出了离差智商(deviation IQs)的理念,并将其与旧的比率智商(ratio IQs)区分开来。但新的理念未能屹立不倒:比率智商的概念已经深入人心,所有人都把韦克斯勒的离差智商理解为比率智商。尽管如此,离差智商的提出仍是一大进步。
在创造离差智商这一理念的道路上,韦克斯勒不得不做出一些武断的决定。首先,他将100定义为智商的平均值。之所以选择这个数字,是因为它在旧的公式里已经为人所熟知。同时,他还需选出一个标准差,他的选择是15,因为这是个容易被整除的数字,并且与推孟和梅里尔所使用的16相近。35以上都是他个人的武断决定,但这些决断也有道理可循,因为它们所采用的数值都是自推孟首次发布他的测验方法以来为公众所熟知的。36离差智商数值允许测试人员将数值记录在一条钟形曲线上,如图2-1所示。如果平均智商为100,而一个人的智商为115,那么这个人就比平均值高一个标准差;相反,如果智商为85,则比平均值低一个标准差。
约68%的人智商介于85~115,95%的人介于70~130,这也就意味着有5%的人位于钟形曲线的两个极端——左侧长尾和右侧长尾各占2.5%。
图2-1 智商分数分布
对于喜欢与数字而不是与图表打交道的读者来说,表2-3就是与不同标准分数(智商分数)相符的比率排行清单。智商分数(即智力年龄除以实足年龄得到的数值)自20世纪30年代起已经不再为人使用,但这个称谓如今仍深入人心。当今,一个人的智商数值在严格意义上来说是一种比率排行,它告诉你在同一横断测验里有多少同龄人得分在你之下。假如你在韦克斯勒测验中得到110分,那也就意味着你的得分高于参加同样测验的75%的同龄人。
表2-3 智商分数比率排行单
严格意义上说,这就是一个智商分数的全部意义。正如比奈早在1898年指出的那样,你的智商测验分数并非智力的绝对体现,它只是一个相对的分数。智商没有绝对的零分,正如体重和身高一样。你不能仅仅因为你的智商是160,就吹嘘自己比智商为80的朋友聪明一倍。同样,140分与160分之间20分的智商差距,与90分与110分之间的差距相比,未必具有相同的心理学意义。
然而,韦克斯勒最重要的创新并非测验的内容(他的很多测验项目都直接取材于前人的测验),也并非用离差智商取代智力年龄/实足年龄的公式(尽管此举意义非凡),他最大的进步在于明确测验的目的:作为临床工具。他把项目分为两类——言语量表和操作量表,以便从业人员在个人施测的情况下亦可观察学生回应模式的质量。
该量表的出版者对此心存疑虑:为何要大费周章地去测验一个人的智力?这与美国人崇尚的快速、廉价、高效地将人群分类的方式大相径庭。于是韦克斯勒自费出版了自己的测验方式。他主动出击,对来自科尼艾兰(Coney Island)、布鲁克林及纽约市的2 000名儿童、青少年及成年人进行了测验。重要的是,他意识到找到一个代表性样本的重要性。比如,如果你想知道7~70岁的美国人在一场智商测验中表现如何,那你就要去测验每个年龄阶段在人口统计学中具有代表性的人群,包括他们的性别、年龄、社会层级、所在区域等。当韦克斯勒将他的测验在其他重要人口统计数据上进行仔细地规范之后,美国心理公司(The Psychological Corporation)突然表示有兴趣出版该量表。
由于斯坦福-比奈测验深得人心,所以韦克斯勒的测验未能一炮走红。然而到了20世纪60年代,天平开始向韦克斯勒的测验倾斜,人们体会到了突破单一智商分数的需求,教育者们也意识到了评估一名儿童智商分数模式的好处。韦克斯勒的原始测验包括10项子测验,包含独立的言语智商和操作智商测验分数。而斯坦福-比奈测验直到第四版,37仍仅能提供言语导向的单一智商分数。
韦克斯勒的测验修订协作伙伴之一艾伦·考夫曼(Alan Kaufman)扩展了韦克斯勒将智商测验作为临床工具这一目的。1979年,他引入了智力测试(intelligent testing)的理念。这一方法将临床医师置于测试之上,使得测试人员能够将每一名儿童看作独立的个体:“测试的焦点是儿童本身,主要目标是将对测试结果的交流放在特定的情境中进行——考虑儿童的特定背景、特有行为以及使用测试项目的方法。不再强调总体评分,而是要求测试人员具备灵活性和洞察力。测试被视为一项动态辅助机制,而非作为分级安置、贴标签或是任何其他形式学术压制手段的工具。简言之,对智力的测试就是关键所在。”38
许多现代智商测验都有内置的智能测试方法。韦克斯勒儿童智力量表第四版(WISC-IV)以及韦克斯勒成人智力量表(WAIS-IV)都包括“过程分数”(process scores),基于伊迪丝·卡普兰(Edith Kaplan)的波士顿过程研究法(Boston Process Approach),该分数允许临床医师洞察导致一名儿童答错一道问题的过程。韦克斯勒儿童智力量表的第四版包含了一本手册,以便临床医师更好地理解一名儿童对测验项目作出独特反应的原因所在。其他的现代智商测验,比如考夫曼儿童成套评估测验(Kaufman Assessment Battery for Children)第二版同样内置质量指标(QIs),以便在测试过程中引导测试人员对儿童进行观察。正如艾伦·考夫曼在《智商测验101》(IQ Testing 101)中提到的那样:“这里的经验教训是,智商测验是基于临床观察建立的,比起一堆测验分数,智商测验能为技能娴熟的专业测试人员提供更多信息,而一位心理学家的测试经验是不可忽视的无价财富。”39
斯坦福-比奈测验已经出到了第五版,更加成熟。然而更新到第四版的韦克斯勒测验仍是大部分美国心理从业人员的心头之选。40
CHC框架:终于有了一个关于人类认知能力的总结
在20世纪的大部分时间里,智力理论与智力实践之间是泾渭分明的。在地球的这一边是对认知测验实践运用兴致不高的科学家们在辩论智力中是否存在一般智力因素(见第10章),而在地球的另外一个角落,智商测验编制者们却在对20世纪二三十年代的测验进行细小的改进。双方鲜少交流,少到几乎能让人认为他们完全属于两个星球。
20世纪60年代,神经心理学领域开始取得进展。该领域影响较大的神经心理学团队是诺贝尔生理学及医学奖获得者罗杰·斯佩里(Roger Sperry)和他的研究生迈克·加扎尼加(Michael Gazzaniga)。他们对癫痫患者进行研究,这些患者的脑胼胝体(连接大脑左右半球的纤维束)已经断裂,这些进行过手术的“裂脑”患者表现出更少的癫痫症状,但是他们也出乎意料地表现出完全分裂的心智状态。
大约在同一时期,关于裂脑的研究正如火如荼,艾伦·考夫曼偶然接触到神经心理学的研究并好奇为什么智商测验的编制者没有将最新的研究发现融入测验。不久,艾伦和他的妻子纳丁(Nadeen)研发了新的智商测验,其主要进步体现在“教学项目”(teaching items)的运用上,“教学项目”是指测试者首先浏览几个测验项目样本并解释答案背后的推理过程,以确保被试理解这个测验。测试者还需要使用各种方式与儿童交流,在必要的情况下需要用不同的单词、手势、语言甚至是美国手势语(American Sign Language)。这些进步使得被试能够获得个性化的测验指导,而且增加了测试者和被试之间的交流。这样,智商测验有更大可能衡量到被试的重要能力,而不仅仅是让他们被困于对测验指令的理解上。
尽管后来很快证明他们的测验主要考察的是短时记忆能力和视觉加工能力,但是他们的测验意义重大,因为这是首个基于理论、针对个体实施的临床智商测验。20世纪80年代后期,神经心理学和认知测验繁荣发展,对一系列认知功能进行了衡量。于是,为所有不同的测验设置共同行业语言的时候到了。
1986年在达拉斯召开的会议以及1999年在北卡罗来纳州教堂山(Chapel Hill)召开的会议皆就此问题展开讨论。会议结束后不久,经伍德科克-约翰逊认知能力测验的作者理查德·伍德科克(Richard Woodcock)的协调,与会的两名智力理论家——约翰·霍恩(John Horn)和约翰·卡罗尔(John Carroll)同意将他们的理论融合成一个统一的框架,即“卡特尔-霍恩-卡罗尔(Cattell-Horn-Carroll,简称CHC)认知能力理论”,如此,关于认知能力最具影响力的理论框架诞生了。42
最终,从业人员拥有了可供使用的行业通用语言,这种语言不管在何种特定测验中都能应用。学校心理专家同样可以挑选采用他们需要的测验来评估学生认知的优势和劣势领域,他们可以运用这些信息制定具体的行动计划来帮助学生提升他们有困难的方面。
CHC框架包含认知能力的不同等级。最低一级是70多种“窄域”(narrow)能力,它们组成了更高一级的9种“宽域”(broad)能力。最高级别只有“一般智力”(见第10章),然而,由于其在指导设计干预方面实用性极低,因此这一层面分析的重要性在CHC框架中被削弱。图2-2体现了CHC框架中的9种宽域认知能力(完整框架见书后所附CHC智力模型2.2版直观图示)。CHC框架是至今最全面的关于认知能力的分类,它影响了当代所有智商测验的编制,包括斯坦福-比奈测验的第五版(最新版本)、考夫曼儿童成套评估测验第二版、伍德科克-约翰逊认知能力测验第三版,以及差异能力量表(Differential Ability Scales)的第二版。43尽管目前使用的其他智商测验并没有体现出明显的CHC理论基础,但是人们已经采用了新的统计技术将现代测验映射到CHC术语库中。如此一来,所有人都可以使用同样的行业语言了。
图2-2 卡特尔-霍恩-卡罗尔(CHC)认知能力理论中的定义
资料来源:W.J.Schneider and K.McGrew,“The Cattell-Horn-Carroll Model of Intelligence,”in Contemporary Intellectual Assessment:Theories, Tests, and Issues, ed.D.Flanagan and P.Harrison,3rd ed.,99-144(New York:Guilford,2012).经许可使用。
表2-4所列为时下使用范围最广的一些智商测验以及各测验所衡量认知能力的CHC术语表述。45
表2-4 CHC术语表述
关于CHC模型实用价值的研究凤毛麟角,大多数与学校或学业相关的CHC研究都是使用伍德科克-约翰逊的认知能力测验展开的。尽管如此,近期凯文·麦格鲁(Kevin McGrew)和芭芭拉·温德林(Barbara Wendling)对20多年间关于CHC框架的研究进行了综述,他们在论文中提出了以下重要结论:45
●大多数的“行动”都处于窄域能力的层面。正是这些具体技能(而非总体智商分数)对理解与发展针对阅读和数学的干预措施有重大意义。
●专业人员应当采取智能测试方法并摒弃“一测定乾坤”的惯用做法:“评估方法的智慧设计不是来自某个更高的权威,而是来自已有研究的综合与专业经验和临床经验的整合。”
●不同的能力会在发展过程的不同时期促进成就的获得。“在进行数学和阅读评估之前,从业者在设计最初的评估措施之时,应当问以下问题:当前关注的子领域是什么?学生的年龄有多大?研究表明有哪些CHC框架中的能力与该年龄段学生在这个(些)领域的相关性最大?”
●智商测验是有未来的。“过去20年中时代变了,智商测验也发生了很大变化……当代智商测验应被视为一个宝贵的工具箱,每一件工具都是由‘智力匠人’根据目前所面临的问题精心挑选的……我们不认为当前的综述是这一旅程的终点,相反,这是朝着理解认知能力和学业成就之间的关系所迈出的重要一步。”
但是时代真的变了吗?问题的答案取决于你问的对象。在业内人士中,有人会告诉你智商测验得到了真正的革新,也有人会说今天的智商测验不过是20世纪初的旧药换了新瓶。毋庸置疑,自智商测验被误用和滥用猖獗的时期至今,我们的确取得了长足的进步,如今智商测验不再被随意用作以往的目的。
但是智商测验真的有未来吗?智商测验尤其是儿童CHC认知能力的测量真的能够预测他们的成就并指导教育者对他们做出教育安置决定吗?在本章,我尝试为大家再现智商测验的历史及其发展。我对众多现代智商测验理论家和编制者怀有无上的尊重,我相信他们都带着最好的意图,而且他们当中的很多人都被我当作朋友。
但是这并不意味着我会盲目地认为他们的测验是中肯的。在接下来的几章中,让我们一起近距离地审视智商测验如何被用来把人分成三六九等并打上不同的标签。我们首先要看一看“学习障碍”这个标签,然后我们将探讨“天赋优异”。近距离审视十分重要,因为每天都有成千上万甚至上百万个决定在很大程度上是依照现代智商测验结果做出的。这些决定非同小可,关乎人们未来成功的机会和梦想的实现。