· 发现噪声
判断永远不可能完美,但可以尽量准确
测量,在日常生活中的含义与其作为科学术语时的含义是一样的,就是使用测量工具给某个对象或事件在一定标尺上赋值。比如,你可以使用卷尺测量地毯的长度,也可以使用温度计来测量温度——无论是华氏还是摄氏度。
判断与此类似。法官为罪犯量刑就是依据罪行程度为刑期赋值,核保员会为每一项风险设定一个值(用金额表示),医生做出的诊断也是如此。需要指出的是:判断结果并不一定是数字,“排除合理怀疑”“黑素瘤晚期”“建议手术”等也是判断。
因此,我们可以将“判断”描述为使用人类大脑作为工具的一种测量。测量这一概念隐含着准确性的目标——逼近真实值和使错误最小化。做出判断不是为了让人印象深刻,不是想表明立场,也不是为了说服他人。需要注意的是:此处的“判断”源自专业心理学文献,比日常语境中该词的含义要窄得多。判断不等同于思考,“做出准确判断”也不等同于“拥有良好的判断力”。
根据我们的定义,判断是可以用一个单词或一个短语总结出的结论。如果情报分析师写了一篇很长的报告,得出某国政权不稳定的结论,那么只有这个结论才是判断。判断就是测量,既与做出判断的心理活动相关,也与这项心理活动的结果相关。在英语中,“judge”除了表示“判断”,也指代做出判断的人,而这个人并不一定是法官。
虽然判断力求准确,但即使是在科学测量中,也不可能完美地达到这一目标,更别提判断了。在判断中总会存在一些误差,其中一些是偏差,一些是噪声。
为了让你了解噪声和偏差是如何导致误差的,我们邀请你花不到一分钟的时间来玩一个游戏。如果你的智能手机上有带计时功能的秒表,那么利用它,你可以在不看显示器且无须暂停的情况下,测量连续的间隔时间。你的目标是在不看手机的情况下,让秒表连续记录5段10秒的时间。在开始之前,你最好先感受几次10秒有多长。
现在看一下你的手机上记录的每一段间隔时间。当然,手机难免也会存在一些误差,但这种误差很小。你会发现,手机上记录的每一段时间并非都是10秒,而且差距相当大。你试图精确地重现相同的时间,但根本无法做到。这种你无法控制的差异就是一个关于噪声的例子。
这一点都不奇怪,因为就人的生理和心理而言,噪声无处不在。毋庸置疑,不同的个体在生理上是存在差异的,这就像同一个豆荚中没有两颗完全相同的豌豆。在个体内部同样存在差异,比如,你的心跳不可能是完全规则的,你不可能完全准确地重复同一个姿势。如果有一个听力学家帮你检查听力,可能一些声音太小,你完全听不见;一些声音很大,你总能听见;然而,总有一些声音,你有时能听见,有时又听不见。
现在看看你手机上的5个数字。看出来一些规律了吗?例如,是每一段时间都短于10秒吗?如果是,那么这意味着你内心的钟表跑得太快了。在这个简单的任务中,偏差指的是你的平均时间与10秒之差(无论是正的还是负的)。噪声导致了结果的差异,其外在表现类似于我们之前看到的散点图。在统计学中,标准差是测量差异的最常见指标,我们将用标准差来测量判断中的噪声。
你可以把大部分判断,尤其是预测性判断与你刚刚做出的判断看成一回事,当做出预测时,我们在试图接近真实值。例如,经济分析师的目标是尽可能接近下一年国内生产总值增长的真实值,医生的目标是试图做出正确的诊断。(需要注意的是,本书中的“预测”一词并不是指对未来进行预测,在我们看来,对现有病情的诊断也是一种预测。)
我们会充分利用“判断”与“测量”之间的类比来帮你理解判断中的噪声。进行预测性判断的人就像瞄准靶心的射击手或试图测量粒子真实重量的物理学家,判断中的噪声则意味着误差。简而言之,当判断的目的在于获得真实值,两个不同的判断就不可能都对。就像测量一样,在某些特定任务中,有些人可能会由于技能水平不高或训练不足,比其他人产生更多的误差。当然,做出判断的人也同样远非完美。因此,我们需要了解和测量他们的误差。
当然,大部分专业判断比测量间隔时间要复杂得多。在第4章,我们会对不同类型的专业判断做出界定,并探究它们的目标。在第5章,我们将讨论如何测量误差,以及如何量化系统噪声对误差的影响。在第6章,我们会进一步分析系统噪声并分析其组成部分,即不同类型的噪声。在第7章,我们将探讨其中一种噪声:情境噪声。在第8章,我们将展示群体如何常常在判断中放大噪声。
通过这几章,我们会得出一个简单的结论:同所有测量工具一样,人类的大脑并不完美,其中同时存在偏差和噪声。为什么会这样?会有多少偏差和噪声?让我们一起来揭开谜底吧。
第4章
什么是判断
本书论述的是一般意义上的专业判断,我们假设如果做判断的人有足够的能力,就能做出准确的判断。然而,判断这一概念本身包含着一个你不得不承认的事实:你永远无法确定一个判断是不是准确。
请思考“判断问题”和“主观判断”这两个短语的差别。我们认为“太阳明天会升起”或“NaCl是氯化钠的化学式”这样的陈述并非判断,因为任何理性的人都会完全同意上述观点。判断问题在于其结果存在不确定性,我们承认理性或有能力的人在某一问题上是可能存在分歧的。
然而,分歧需要有一定的限度。事实上,“判断”这个词主要用于人们能够达成一致意见的场合。判断问题不同于品位或意见,在后两种情况下,彼此之间的差异是完全能被接受的。对于那些对噪声审查感到震惊的保险公司高管来说,理赔员在“披头士乐队和滚石乐队哪个更好”,或是“鲑鱼和金枪鱼哪个更好”之类问题上存在的分歧,并不会让人觉得不妥。
包括专业判断在内的判断介于两者之间:一端是事实或计算问题,另一端是品位或意见问题。因此,不同主体的判断必然存在一定程度的分歧。
到底多大的分歧是可以被接受的?这本身就是一个判断问题,而且取决于问题的难度。人们很容易对一个荒诞不经的判断达成一致。比如,在一起普通诈骗案中,法官们会一致认同:判罚款1美元或判无期徒刑都是不合理的;在葡萄酒比赛中,评委们对哪种葡萄酒应该获奖可能会分歧很大,但对于哪些葡萄酒应该被排除在获奖的门槛之外却往往能达成一致。
判断的经验
在进一步讨论判断经验之前,我们邀请你自己先做一个判断,完成这项练习有利于你理解本章的内容。
设想你是一个团队里的成员,负责评估一家中等规模的地区性金融公司的CEO候选人,该公司正面临着日益激烈的竞争。你需要评估以下候选人在工作两年后获得“成功”的可能性。成功的定义很简单,就是候选人在两年任期结束时,仍能保住CEO的职位。用0(不可能)到100(必然)范围内的数字来表示概率。
迈克尔·甘巴迪(Michael Gambardi)今年37岁。12年前从哈佛商学院毕业以来,已经任职过几家公司。早期,他是两家初创公司的创始人和投资人,但由于没有得到足够的资金支持而宣告失败。随后,他加入一家大型保险公司,并迅速晋升为欧洲地区的首席运营官。在该职位上,他发起并实施了一项有助于及时解决索赔问题的重要改进措施。同事和下属都认为他有效率,但也霸道、粗暴,在他的任期内,高管的离职率很高。同事和下属也认可他的正直以及愿意为失败承担责任。在最近的两年里,他一直担任一家中型金融公司的CEO,这家公司最初面临倒闭的风险,但他成功使公司转危为安。人们认为他是成功的,尽管与他个人合作很难。目前,他表示有兴趣换个工作。几年前面试过他的人力资源专家在创造力和精力两个方面给了他高分,但也表示他很傲慢,有时甚至是专横的。
让我们简单回顾一下已知信息,甘巴迪是一家地区性金融公司CEO的候选人,该公司已经取得了一定的成就,但也面临着日益激烈的竞争。你需要回答:如果甘巴迪被录用,两年后仍在职的可能性有多大?请在继续阅读后面的内容之前,给出一个0~100的具体数字。如有必要,你也可以重新阅读上文的描述。
如果你认真思考这个题目,可能会发现自己很难做出判断。这里有大量的信息,但很多信息看起来并不一致,你必须努力构建一个帮助自己做决策的前后一致的印象。在建构这种印象时,你会专注于一些看起来非常重要的细节,但同时也可能忽略了其他细节。如果要求你解释下自己给出的数字,你可能会提到一些主要的事实,但这些又不足以全面地解释你的判断。
上述思维过程揭示了我们在“判断”过程中的几个心理特征。
· 首先,在前文所提供的线索(这些可能只是你需要了解的一部分信息)中,你对一些信息的关注度可能会高于对其他信息的关注度,并且你可能完全没有意识到这一点。你有没有意识到“甘巴迪”是一个意大利姓氏?你记得他是从哪所学校毕业的吗?这些设置是为了让你信息过载,从而让你无法回忆起该案例的所有细节。而且,你回忆起来的内容很有可能和其他读者能够回忆起来的内容不同。“选择性注意”(selective attention)和“选择性回忆”(selective recall)是人与人之间判断差异性的源头之一。
· 其次,你随意整合了所有线索,形成了一个关于甘巴迪的整体印象。这里的关键词是“随意”,也就是“非正式”,你并没有制订一个详细的计划来回答这一问题。在没有完全意识到的情况下,你的大脑建构了一个有关甘巴迪的优点、弱点以及他有可能面临的挑战的整体印象。这一“非正式”的思考能够让你快速做出判断,但它也有可能产生差异性:一个正式的过程,例如增加一列数字,能够确保获得相对一致的结果,但在非正式的心理运作过程中,噪声难以避免。
· 最后,你将整体印象转换成一个用于衡量成功概率的数字。将整体印象与0~100中的某个具体数字对应起来是一个了不起的过程,我们在第14章会对此再次进行讨论。同样,你并不能确切地知道这么做的原因。比如,为什么你选择65,而不是61或69?很有可能的是,它只是在某个时间点,你脑海中忽然就跳出来的一个数字。你确认一下这个数字是否合适。如果你觉得不合适,大脑中则会跳出另一个数字。这一过程也会导致人与人之间的差异性。
既然复杂判断过程中的这三个步骤都会产生差异性,那么在回答有关甘巴迪的问题时存在噪声也就不奇怪了。如果你找几个朋友来阅读上面的案例,你会发现,你们对他成功的概率的评估也会有很大差异。我们让115名MBA学生来对之做判断,他们对甘巴迪能成功的概率的评估在10~95之间,这意味着非常大的噪声。
你可能会发现,秒表实验和甘巴迪问题体现的是两类噪声:秒表实验中产生的差异性是单一判断者的噪声;而甘巴迪案例中,判断的差异性是不同判断者之间的噪声。从测量学的角度而言,第一个问题反映的是“个体内的信度”(within-person reliability),第二个问题反映的是“个体间的信度”(between-person reliability)。
判断的目的:只是响应“做出判断”的内部信号
你对甘巴迪问题的回答是一种预测性判断——关于这一概念,我们在前文中已经定义过,然而,它在一些很重要的方面不同于其他预测性判断,如曼谷明天的最高气温、今晚足球赛的结果或下届总统大选的结果。如果在这些问题上你不同意朋友的判断,你会在某个时间点知道谁是对的。但是,如果在甘巴迪日后表现的问题上你和朋友之间存在分歧,时间也无法告诉你谁是对的,原因很简单:甘巴迪根本不存在。
即使要评估的是一个真实的人,并且我们知道结果,我们也无法证实或证伪一个单一的概率判断(除非概率是0或1)。结果并不能表明“事前概率”(ex ante probability)是多少。如果一个被认为有90%的可能性会发生的事件并未真正发生,也并不能说明概率判断是不好的,毕竟,即使某个结果只有10%的可能性会发生,它也有可能真正发生。基于如下两个不同的原因,甘巴迪案例就是一个无法验证的预测性判断:甘巴迪是一个虚构的人物;关于该人物的判断结果是概率性的。
很多专业判断都是无法验证的。除非出现严重的错误,核保员可能永远无法知道某一特定保单的报价是过高还是过低。其他一些预测因为是有条件的,所以也无法验证。“如果我们开战,我们将被击溃”是一个重要预测,但它很可能不能验证。还有一种情况是:预测的时间跨度太大,以至于预测者无法验证结果,例如关于21世纪末全球平均气温的预测。
上述甘巴迪问题无法被验证的特征会影响你的判断吗?例如,你是否质疑甘巴迪是真实人物?你是否会在意下文能否告知你答案?你是否想过,即使告知你答案,你也无法解决当前所面临的问题?你可能没有想过这些问题,因为当你回答问题的时候,上述这些因素似乎无关紧要。
能否验证并不会改变你的判断经验。在一定程度上,当一个问题的答案很快就被揭晓时,你可能会更加积极地思考,因为害怕出错,所以你的注意力更加集中。相反,你可能会拒绝对一个荒谬的假设性问题做太多思考,比如,如果甘巴迪有三条腿、能飞,他会是一个更好的CEO吗?总体而言,你会用解决现实问题的方式去解决一个假设性问题。这种相似性对心理学研究很重要,因为很多研究使用的都是这种假设性问题。
既然没有结果,你也不会去问是否有结果,那么按理说,你不会尽可能去减少判断与结果之间的错误,但你仍试图去做出正确的判断,给出一个你有足够信心的数字。当然,你对自己的答案并没有十足的把握。你能意识到一些不确定性,并且正如我们所看到的那样,有可能存在一些超出你原本认知范畴的不确定性。但在某个时间点上,你决定不再进一步思考,而是给出最终答案。
是什么让你觉得自己做出了正确的判断?我们将这种感觉称为“做出判断的内部信号”(internal signal of judgment completion),这种内部信号与任何外部信息都无关。
如果你的答案与外部证据相契合,那么你就会觉得自己是对的。0或100这两个数字无法给你契合感:这两个数字所隐含的信心与现有的混乱、模棱两可、相互矛盾的证据是不匹配的。但是,不管你给出的是哪个数字,它都能够带给你所需要的一致感。正如你之前的经历告诉你的那样,判断的目标就是达到一致性的解决方案。
内部信号的本质特征在于:一致感是判断经验的一部分。它并不完全取决于真正的结果。因此,内部信号对于不可验证的判断与对于真实的、可验证的判断一样可用。这样就可以解释,为什么我们对于像甘巴迪这样的虚假人物做出判断的经验,就像是在真实世界中做判断。
评估判断的两种方法:结果和过程
能否被验证并不会改变判断的过程,但会改变事后对判断的评估。
结果可验证的判断可以由一个客观的观察者,根据一个简单的误差测量方式,即通过判断与结果之间的差异进行评定。如果天气预报员说今天的最高气温会达到21摄氏度,而事实是18摄氏度,那么我们可以说预报员犯了一个正3度的错误。显然,这种方法不适用于类似甘巴迪问题中的非验证性判断,因为这种判断没有真正的结果。那么,我们如何去界定一个判断的好坏呢?
答案是还有另一种评估判断的方法,这种方法既适用于可验证的判断,也适用于不可验证的判断,而且其核心在于评估判断的过程。当我们在说好或不好的判断时,我们要么指的是判断的输出,比如甘巴迪的案例中你给出的数值;要么指的是判断的过程,也就是你是如何得出这个数值的。
评估判断过程的一种方法是,观察这一过程在应用于大量案例时的表现。以一个政治分析师为例,他在地方选举中预测了大量候选人的获胜可能性。他宣称,这些候选人中的100人有70%的可能性获胜。如果这100人中最终有70人当选,我们就会认为该政治分析师的预测很准确。虽然单个概率判断无法用正确或错误来评价,但其整体是可以被验证的。同样,通过审查大量案例的统计结果,我们可以更好地确定是否存在针对某一特定群体的偏见。
关于判断过程的另一个问题是,它是否符合逻辑或概率理论。大量关于判断中认知偏差的研究都在分析这个问题。
关注判断过程而不是结果,我们就可以对无法验证的判断进行评估,例如对虚构问题的判断或时间跨度很长问题的预测。虽然无法将其与已知的结果进行比较,但我们仍然可以评估这些判断是否正确。当我们将重心放在提升判断品质,而不仅仅是评估判断的好坏时,我们也会将注意力放在判断过程上。我们在本书中推荐的所有减少偏差和噪声的方法,都是为了实现这样的判断过程:能够在同类案例中从整体上最大限度地减少误差。
我们比较了两种评估判断品质的方法:一种是比较判断的结果,另一种是比较判断过程的品质。需要注意的是,对于可验证的判断,如果在单个案例中使用这两种评估方法,可能会得出不同的结论。一名熟练、谨慎的预测者在使用最好的工具和技巧对季度通胀进行预测时,也经常会出错。而在关于单个季度的预测中,即使是让黑猩猩掷骰子,也有可能给出准确的“答案”。
研究决策的学者为解决这一问题提出了清晰的建议:关注过程,而不是单个案例的结果。然而,这并非现实生活中的惯常做法。专家们也经常评估自己的判断与可验证结果之间的一致程度,如果你问他们,他们判断的目标是什么,他们会说:尽可能地与结果一致。
总而言之,在可验证的判断中,人们通常声称,他们判断的目标是尽可能使自己的预判与结果一致。而事实上,无论是可验证的判断还是不可验证的判断,他们实际想要获得的是做出判断的内部信号,这种信号源自事实与判断之间的一致性。其实,他们应该追求的目标是:努力实现能够对一系列类似案件做出最佳判断的过程。
评估性判断vs预测性判断
到目前为止,本章主要集中讨论的是预测性判断的工作,随后讨论的也主要是这类工作。然而,在第1章中讨论的弗兰克尔法官以及美国联邦法官量刑中的噪声,考察的则是另一种类型的判断。给罪犯判重罪不是预测,而是“评估性判断”(evaluative judgment),目的在于使犯罪严重程度与刑期之间相匹配。葡萄酒比赛的评委和餐厅评论家做出的是评估性判断。对论文进行评分的教授、滑冰比赛的评委以及对科研项目进行评估以决定是否给予资助的委员会做出的判断也都是评估性判断。
在多选项决策中对不同选项进行权衡也是一种评估性判断。类似的例子包括:经理们在一系列候选人中进行选择,管理团队在不同策略之间进行选择,以及总统们选择如何应对非洲的埃博拉疫情。可以确定的是,所有这些决策有赖于预测性判断来提供信息。例如,某位候选人第一年的表现如何;股票市场对某项战略举措的反响如何;如果放任不管,传染病会以多快的速度传播。然而,最终的决策过程需要在每个选项的优势和劣势之间进行权衡,而这种权衡是通过评估性判断实现的。
就像预测性判断,评估性判断也会出现一定范围内的不一致性。没有一位称职的美国联邦法官会说:“这是我最喜欢的判决,我根本不在乎我的同事是否有其他看法。”从一系列策略中做出选择的决策者会有这样的预期:如果同事或其他人获得了相同的信息且具有相同目标,他们就会赞同自己的选择,至少不会偏离太远。评估性判断在一定程度上依赖于判断者的价值观和偏好,而不仅仅是个人品位或意见的问题。
可见,预测性判断和评估性判断的边界比较模糊,做出判断的人往往没有意识到二者间的差异。做出判决的法官和给论文评分的教授会努力思考,并力图找到“正确”答案。他们对自己的判断和做出判断的理由很有信心,在做出预测性判断(如:这款新产品销量如何)和评估性判断(如:我的助手今年表现如何)时,专家们感受相同、行为相同,当然也会以相同的方式阐述自己做出判断的理由。
“任意残酷行为”,噪声的最大问题
在预测性判断中存在噪声,则意味着哪里出错了。举个例子,如果两名医生在诊断上有分歧,或两名预测员对下一季度的销售额持不同意见,那么他们之中至少有一个人是错的。原因可能是其中一个人缺乏技能,也可能是存在其他噪声。不管是什么原因,错误的判断可能会给依赖诊断与预测行事的人带来严重的后果。
在评估性判断中存在噪声也会有问题,但原因不同。在司法系统中,如果法官是可以互换或随机分配的,关于同一案件的巨大分歧会违背人们对司法公正性和一致性的期望。如果对同一被告的判决差异很大,那么我们就是在做弗兰克尔法官所谴责的那种残酷专横之事。甚至那些信奉刑罚个别化的法官以及对抢劫犯的判决存有异议的法官也会认可:如果不同判决之间的差异太大,大到就像抽签一样,那就是有问题的。这一问题在其他场景中也存在,只是戏剧性没那么强:不同的教授对同一篇论文给出的评分差异巨大;不同的机构对同一家餐馆给出了不同的食品安全评分;不同的评委对同一位滑冰选手打出不同的分数。再比如,某人因患有抑郁症而获得了残障人士享有的社会保障,而另一个状况相同的人则什么都没有得到。
即使不公平不是一个特别需要关注的问题,系统噪声也会带来另一个问题。受评估性判断影响的人期待这些判断反映的是系统的价值观,而不是个别法官的价值观。设想一下:一个客户抱怨笔记本电脑有缺陷,并得到了全额退款,而另一个客户仅仅收到道歉;一位在公司工作了5年的员工要求升职并获批准,而另一位绩效相同的员工则被婉拒……这些都是很严重的问题。这样看来,系统噪声就是不一致,而不一致会损害系统的可信度。
噪声是可以测量的
只需对同一问题进行多次判断,我们就可以测量噪声,而且我们并不需要知道这一问题的真实值。正如引言中提到的射击的故事,当我们隐去靶子时,我们是看不见靶心的,但是可以看到子弹落点的分布情况。只要我们知道所有的射击手都是瞄准靶心的,那我们就可以测量噪声,也就是进行噪声审查。如果我们要求所有的预测者预测下个季度的销售额,预测的分散程度就是噪声。
偏差和噪声之间的这一区别对于改善判断品质非常关键。在我们无法验证判断是否正确的前提下,宣称可以改进判断听起来是自相矛盾的,但我们的确可以,因为只需从测量噪声开始。
无论判断的目标是获得精确的结果,还是在不同价值之间进行复杂的权衡,我们都不希望噪声存在。不过,我们通常可以对它进行测量。正如我们将会在第五部分中讨论的那样,只要可以测量噪声,我们就可以减少它。
· 消除噪声
专业判断的本质
· 关于判断问题,你不要指望所有人完全一致。
· 是的,这是个判断问题,但有些判断太离谱了,所以是错的。
· 你对候选人的选择体现的只是你的个人喜好,这算不上严格意义上的判断。
· 决策既需要预测性判断,也需要评估性判断。
第5章
测量误差,噪声与偏差的代价一样大
显而易见的是,一致性的偏差会引发代价高昂的错误。如果体重秤在你每次称体重时都自动加上一定的重量,如果一位乐观的经理总是预测项目只需花费实际所需时间的一半,如果一位谨小慎微的经理总是年复一年地低估未来的销售额,那么后果都将会非常严重。
我们已经知道,噪声会引发代价高昂的错误。如果一位经理大多数时候预测的项目所需时间只是实际所需时间的一半,而在少数预测中又将前者估计成后者的两倍,那么我们是否可以说在平均水平上这位经理的判断是对的呢?答案是否定的。这些不同的误差是累加的,而不会互相抵消。
因此,我们想到了一个很重要的问题:偏差和噪声是如何引起误差的?多少偏差和噪声会引起误差?本章试图回答这些问题。这一章所要呈现的信息非常明确:在各种专业判断中,当以准确性为目标时,偏差和噪声在计算总体误差时扮演着相同的角色。在有些案例中,偏差是误差的主导因素;在其他案例中,噪声则是主导因素,而且这类案例比我们预想的更为常见。但在每一个案例中,每减少一个单位的噪声对总体误差的影响和每减少一个单位的偏差对总体误差的影响是一样的。因此,测量和减少噪声应该与测量和减少偏差同等重要。
这一结论是依据一种特定的误差测量方法得出的,这种测量方法由来已久,并且被科学界和统计学领域广泛接受。我们将在本章对其历史进行回顾,并简单介绍它的原理。
GoodSell应该减少噪声吗
假设有一家名为GoodSell的大型零售公司,这家公司雇用了一些销售预测师,他们的工作就是预测GoodSell在各地区的市场份额。可能是由于读过关于噪声的图书,预测部门的主管埃米·西姆金(Amy Simkin)进行了噪声审查。所有预测师都对同一个地区的市场份额进行了独立评估。
图5-1显示了噪声审查的结果(平滑得难以置信)。西姆金可以看到,这些预测分布在常见的钟形曲线(即正态分布,或称高斯分布)中。
图5-1 GoodSell公司在某一地区市场份额的预测分布
频率最高的预测由钟形曲线的顶点所代表,市场份额为44%。西姆金可以看到,公司的预测系统具有很高的噪声:如果所有预测都是正确的,那么这些预测应该相同。但事实上,这些预测值的分布很分散。
我们可以给GoodSell预测系统中的噪声赋予一个数值。就像用秒表来测量间隔时间一样,我们可以计算这些预测的标准差。顾名思义,标准差表示一组数值偏离平均值的程度,在本例中为10%。对于每一个正态分布来说,大约2/3的预测值都落在偏离平均值正负一个标准差的范围内。本例指的是,约2/3的市场份额落在34%~54%这一范围内。西姆金现在获得了一个关于市场份额噪声的评估数据。需要提醒读者的是,为了获得更加稳健的评估,更好的噪声审查可以使用几个预测问题,但此处有一个问题就够了。
在第2章中,关于真实保险公司高管的案例也是如此。西姆金感到非常震惊,并决定采取措施。令人难以接受的噪声程度表明,预测师没有遵循他们应该遵循的程序。西姆金要求公司领导雇用一个噪声顾问来监督预测师的工作,从而提升他们的一致性。可惜,她的要求并未得到批准。领导的回复似乎也很合理:“当我们不知道自己的预测是对是错的时候,如何能够减少错误?如果平均起来错误很大(即存在一个较大的偏差),那它是一个需要尽快解决的问题。”最后,领导得出结论:GoodSell先需要确认这些预测师的预测是对是错,然后再谈改善预测品质的措施。
在那次噪声审查的一年后,预测师们所预测内容的真实结果出来了。目标地区的市场份额实际为34%。现在我们知道了每一位预测师的误差程度,即他们的预测值与实际结果之间的差异。如果预测值是34%,那么误差是0;如果预测值是44%,那么误差是10%;而对于很低的预测值24%,误差为-10%。
图5-2显示的是误差分布情况。它和图5-1中的预测曲线相同,不同的只是它的每一个数据点表示了将图5-1中相应的预测值减去真实值(34%)后的差。分布的形态没有改变,而且误差分布的标准差(我们对预测误差本身的噪声的测量结果)仍然是10%。
图5-2 GoodSell对某一地区市场份额预测中的误差分布
观察图5-1和图5-2之间的差异,就像图0-1和图0-2中从正面和隐去靶子观察射击规律之间的差异。在考察射击故事中的噪声时,我们无须知道靶子的位置,同样,知道真实结果对于预测噪声也无任何助益。
西姆金和她的领导现在知道了一些他们以前不知道的信息:预测的偏差数量。偏差是误差的平均值,在本例中是10%。因此,偏差和噪声在此案例的数据集中是一个相同的数字。(需要说明的是,噪声和偏差相等不是普遍的情况,但采用一个噪声和偏差相等的案例有助于读者理解它们各自的作用。)我们可以看到,大部分预测师都犯了过度乐观的错误,他们高估了公司可能获得的市场份额,大部分人的预测都落在了0误差线的右侧。事实上,结合该正态分布曲线的属性来看,大约84%的预测都高估了实际的市场份额。
面对上述结果,西姆金的领导自鸣得意地认为自己是对的,这些预测中存在着大量偏差!减少偏差固然是一件好事,但西姆金还是想知道,一年前的提议是明智的吗?就目前而言,再次提出减少噪声仍然明智吗?相比于减少偏差,减少噪声的意义是什么呢?
均方,衡量整体误差的精确规则
为了回答西姆金的问题,我们需要一个关于误差的评分规则,即对个体误差赋予不同权重并将其整合成测量总体误差的一个指标。幸运的是,这种工具确实存在,那就是“最小平方法”(method of least squares,也叫“最小二乘法”),它是由德国数学家高斯于1795年发明的。高斯是举世闻名的数学天才,生于1777年。他在十几岁时就做出了多项重大贡献。
高斯提出了一种方法,用于评估单个误差对总体误差的影响。他在测量总体误差时,使用的是“均方误差”(Mean Squared Error,MSE),即个体误差平方的平均值。
详细探讨高斯对总体误差的测量超出了本书的讨论范畴,而且他的解决方案并非直观易懂。为什么用均方呢?这是一个听起来有些奇怪的概念,但它建立在我们几乎所有的直觉上。
为了弄明白其中的原因,让我们来看一个看上去似乎完全不同但其实本质相同的问题。想象一下,你用一把尺子来测量一条线段的长度,要求精确到毫米,并且你可以测量5次。测量结果分别用图5-3中指向下方的三角箭头表示。
图5-3 对同一线段长度的5次测量结果
正如你看到的,5次测量结果都在971~980毫米这一范围内。那么,哪一个是对这条线段的最精确测量呢?一个可能是中位数,即两个最短的测量结果和两个最长的测量结果之间的那个测量结果,在本例中为973毫米。另一种可能是算术平均值,通常被称为平均值,在本例中为975毫米(图5-3中指向上方的三角箭头)。你可能倾向于认为平均值更为精确,你的直觉是对的。平均值包含更多信息,它受测量次数的影响,而中位数只受顺序的影响。
我们对实现最佳评估这一问题有很清晰的直觉,它与我们关注的对总体误差的测量关系紧密。它们实际上是同一个问题的两面,因为最佳评估能够使当前测量的总体误差最小化。因此,如果你凭直觉认为平均值是最佳测量结果,并且你的直觉没有错的话,那么用于测量总体误差的公式应该能够产生算术平均值,因为算术平均值的误差是最小的。
均方误差就具有这样的特征,它是唯一能够对总体误差进行测量的概念。在图5-4中,我们假定线段的真实长度有10个可能的整数值,进而计算5次测量的均方误差。例如,如果真实值是971毫米,那么5次测量的误差就分别是0、1、2、8和9。这些误差的平方之和为150,均方为30。这是一个很大的数值,表明一些测量值离真实值很远。你会看到,当测量值接近975(平均值)时,均方误差会下降。随着测量值远离平均值,均方误差又会逐渐增加。可见,平均值是最佳评估结果,因为在这种情况下总体误差最小。
图5-4 10个可能的真实值对应的均方误差
你还会发现,当你的评估值远离平均值时,总体误差会迅速增加。例如,当你的评估值仅仅增加3毫米,如从976变化到979,均方误差就会翻倍。这是均方误差的关键特征:相比于小的误差,平方给大的误差赋予了更大的权重。
现在你应该明白了为什么高斯用于测量总体误差的公式被称为均方误差计算公式,以及这种评估方法为什么被称为最小平方法。对误差进行平方是其核心思想,其他任何公式都无法与我们的直觉——平均数是最佳评估值如此契合。
高斯的方法很快得到其他数学家的认可。作为其众多伟大成就之一,高斯用他的均方误差方法及其他数学创新解决了一大难题——重新发现谷神星(Ceres)。在此之前,这颗小行星只在1801年被短暂地追踪到,之后便消失于太阳眩光中。高斯对这一问题的解决方案优于当时欧洲最好的天文学家。这些天文学家一直想方设法估算谷神星的轨道,然而他们测量望远镜误差的方法是错误的,这颗行星根本没有在他们预测的任何地点附近出现。高斯用最小平方法重新进行了计算,当天文学家用望远镜对准高斯所预测的地点时,他们发现了谷神星!
不同领域的科学家很快就开始普遍采用最小平方法来评估误差。两个多世纪过去了,当想要达到准确测量的目标时,最小平方法仍然是评估误差的标准方法。用平方来赋予误差权重是统计学的核心。在绝大部分科学领域的应用中,均方误差方法处于绝对优势地位。正如我们将看到的,这一方法具有极高的应用价值。
单次测量中的误差
=
偏差
+
噪声误差
Error in a single measurement
=
Bias
+
Noisy Error
误差方程:无论偏差大小如何,减少噪声都有益处
偏差和噪声在误差中的作用很容易概括为两个表达式,我们将其称为误差方程。第一个误差方程将单次测量中的误差分解为你现在熟悉的两个部分:偏差(平均误差)和残留的“噪声误差”。
如果误差比偏差大,那么噪声误差是正的,反之则为负。噪声误差的平均数为0。这个误差方程并未提供什么新的信息。
第二个误差方程是对均方误差,即我们之前介绍的对总体误差测量的分解。均方误差可以简单表示为偏差和噪声的平方和。(回想一下,噪声是测量的标准差,它与噪声误差的标准差相同。)
下面的方程(两个平方之和)可能会让你想起一个学生时代常用的定理——勾股定理。或许你还记得,在一个直角三角形中,两条直角边长的平方和等于斜边长的平方。因此,误差方程式就更直观了,其中均方误差、偏差的平方和噪声的平方类似于直角三角形的三条边各自的平方。图5-5表明均方误差(黑色方块区域)的面积等于另外两个方块区域的面积之和。左图中噪声多于偏差,右图中偏差多于噪声。然而,两种情况的均方误差是相同的,均方误差的分解方程在这两种情况下都成立。
=
偏差2
+
噪声2
Overall Error(MSE)
=
Bias2
+
Noise2
图5-5 均方误差的两种分解情形
正如上面的数学公式以及图5-5所示,偏差和噪声在误差方程中扮演了类似的角色,它们虽彼此独立,但被赋予了相同的权重。需要注意的是,在随后的章节中,我们在分析噪声的成分时也会用类似的平方和分解的方式。
误差方程解答了西姆金提出的问题。同等程度地减少噪声和偏差,对总体误差会产生什么影响?答案很明显:在误差方程中,偏差和噪声可以互换,因此无论是减少噪声还是减少偏差,对减少总体误差而言意义是一样的。在图5-2中,偏差和噪声刚好相等(都是10%),因而它们对总体误差的影响是等同的。
误差方程表明,西姆金最初想减少噪声的想法是正确的。无论你何时发现噪声,你都需要想尽办法减少它。这一方程表明,西姆金的领导所认为的“GoodSell应该在预测中的偏差的测量结果出来之后,再去减少噪声”的观点是错误的。对于总体误差而言,噪声和偏差是独立的:无论偏差的大小如何,减少噪声都有益处。
这个结论虽然很违反直觉,但非常重要。为了说明这一点,图5-6表明了减少相同数量的噪声和偏差所产生的效果。为了帮助你理解下图中左右两图的内容,最初的误差分布(来自图5-2)用虚线表示。
图5-6 偏差减半(A)与噪声减半(B)时的误差分布情况
在图5-6的图A中,我们假设西姆金的领导决定采用自己的方式:他发现了偏差,随后决定将其减半,如通过向过于乐观的预测师提供反馈的方式。他未对噪声采取任何措施。这种改进的效果是显而易见的:预测的总体分布更接近真实值了。
在图5-6的图B中,我们可以看到,如果西姆金的提议获得了领导的批准,其结果将会是:偏差没有改变,噪声减半。看似矛盾的是,噪声的减少似乎使问题变得更严重了——预测更加集中了(更少的噪声),而不是更准确了(并未减少偏差)。84%的预测落入真实值的一侧,几乎所有(98%)的预测都错误地高估了真实值。减少噪声似乎使预测更加不准确了——这肯定不是西姆金所希望的!
尽管看上去如此,但图5-6的图B中的总体误差和图5-6的图A中的总体误差减少的数量是一样的。图5-6的图B中情况变得更糟的错觉源自对偏差的错误直觉。测量偏差的目的并不是测量正误差和负误差之间的不平衡,而是测量平均误差,即钟形曲线的顶点与真实值之间的距离。在图5-6的图B中,这一平均误差与原始情境相比并无差异——它仍然很高,占10%,但并没有更糟糕。的确,偏差变得更加显著,因为它占了总体误差中更大的部分——80%而不是50%,但这是因为噪声减小了。相反,在图5-6的图A中,偏差减少了而噪声没有。最终的结果是,图5-6的图A和图5-6的图B中的均方误差相同,也就是说,减少噪声和减少相同数量的偏差对均方误差的影响是相同的。
正如本案例所示,均方误差与我们对预测性判断进行评分的一般直觉相冲突。为了最小化均方误差,你需要尽可能避免大的误差。例如,如果你在测量长度,那么将误差从11厘米减少到10厘米的效果是将误差从1厘米减少至完全消失的效果的21倍。可惜,关于这一点人们的直觉恰恰相反:人们非常渴望一次性把问题全部解决,对小的误差高度敏感,但对两个大的误差之间的差异不敏感。即使你真心相信你的目标在于获得准确的判断,但你对结果的直觉反应与基于科学计算的准确性并不完全匹配。
当然,最佳的解决办法是既减少噪声,也减少偏差。既然偏差和噪声是彼此独立的,那就没有必要在西姆金和其领导的方案之间二选一。因此,如果GoodSell决定减少噪声,而减少噪声又可以使偏差更加清晰明了,那么这种选择就是正确的。也就是说,这确实是一件好事。减少噪声可以帮助公司进一步减少偏差。
然而,如果偏差远远大于噪声,那么减少噪声就不再是首要问题。GoodSell的例子给了我们另一个值得重视的教训。在上述简化的模型中,我们假定噪声和偏差是等同的。从误差方程来看,它们对总体误差的影响也是等同的:偏差和噪声各贡献了总体误差的50%。然而,正如我们所注意到的,84%的分析师会在同一个方向上犯错。如此之大的偏差(7个人中约有6个人朝同一个方向犯错)才产生了与噪声一样大的效果,因此在一些噪声比偏差更多的情境中,我们发现更大的误差就不足为奇了。
我们在上文中用单个案例展示了误差方程的应用,这个案例就是预测GoodSell在某一地区的市场份额。当然,人们总是希望在多个案例中进行一次性噪声审查,方法是相同的:用误差方程计算各个案例的均方误差,然后对它们取平均值。均方误差就是偏差平方与噪声平方之和。对于西姆金而言,如果能得到多个地区的多个预测数据就更好了,无论它们是相同还是不同的预测师做出的预测。这些平均值能够让她对GoodSell的预测系统偏差和噪声有一个更清晰的认识。
噪声的代价
误差方程是本书的思想基础,它为减少预测性判断中的系统噪声提供了理论依据。原则上,减少预测性判断中的系统噪声这一目标与减少统计偏差同样重要。需要强调的是,统计偏差不是社会歧视的代名词,它只是一组判断中的平均误差。
误差方程和我们从中获得的结论均有赖于用均方误差来测量总体误差。这一规则适用于纯粹的预测性判断,包括预测和评估,它们都力求以最大的精度(最小的偏差)和最高的准确性(最小的噪声)来接近真实值。
然而,误差方程不适用于评估性判断,因为误差取决于真实值的存在,故而很难应用于评估性判断。此外,即使我们可以确定评估性判断中的误差,其代价也不太可能与它们的平方成正比。
例如,对于一家制造电梯的公司而言,评估一架电梯的最大负载的误差显然是不对称的:虽然低估意味着一定的代价,但高估可能会引发灾难。误差平方也不能用于评估“什么时候出发去赶火车”这样的决定,因为晚1分钟和晚5分钟的后果是一样的。在第2章中,当保险公司在为其保单估价或估计理赔额时,两个方向的错误都需要付出代价,但同样没有理由假定这两个的代价是对等的。
上述这些例子充分表明:需要明确预测性判断和评估性判断在决策中所起的作用。关于良好决策,一个得到普遍认可的准则是:不应混淆自己的价值判断和事实。决策需要根据客观、精确的预测性判断做出,这些判断不应受到你的希望与恐惧、偏好与价值取向的影响。对于电梯公司而言,第一步是利用不同的技术解决方案对电梯的最大技术负载进行客观计算。安全性仅仅在第二步才需要被重点关注,即根据不同的安全边际来设定最大负载时。可以肯定的是,该选择在很大程度上取决于事实判断,诸如设置不同安全边际的代价与收益。同样,决定何时出发去火车站的第一步应该由客观的旅行时间决定,至于错过火车的代价和提前到火车站所浪费的时间,只有在你需要决定甘愿冒多大风险时才成为你需要考虑的因素。
同样的逻辑适用于会产生更严重后果的决策。在决定是否发动军事进攻时,指挥官需要权衡一系列因素,但他依赖的最重要信息是预测性判断。政府官员在对公共健康危机做出回应时,需要权衡不同选项的优势和劣势,如果缺少对每一选项的可能后果的准确预测,这种评估就无法完成。
在所有这些案例中,最终的决策都需要进行评估性判断。决策者需要考虑多种选项,并根据其价值做出最佳选择。但决策取决于潜在的预测,而这种预测应该是价值中立的。他们的目标是精确性(尽可能击中靶心),均方误差是测量误差的恰当手段。我们可以通过减少噪声来改善预测性判断,如果这样做不会大幅增加偏差的话。
· 消除噪声
误差方程的启示
· 减少偏差和减少噪声对准确性的影响是一样的。
· 不管偏差如何,在预测性判断中减少噪声总是有用。
· 如果判断值中有84%比真实值高,有16%比真实值低,就表明存在较大的偏差——此时,偏差和噪声数量相等。
· 预测性判断是每个决策的重要组成部分,精确度是其目标。要将个人的价值取向和事实分开。
第6章
噪声分析:所有判断都存在3类噪声
在上一章,我们讨论了单个案例中测量或判断的变异性。在单个案例中,判断的所有变异性都是误差,而误差由偏差和噪声组成。我们考察的判断系统,包括法院和保险公司的判断系统,它们的目的在于处理不同案例,并对这些案例进行区分。如果美国的联邦法官和保险理赔员对他们手头的所有案例都做出相同的判断,那他们就没有什么存在的价值了。对不同案例做出有差异的判断,在很大程度上是有意为之。
然而,人们并不希望在同一案例上存在判断的差异——系统噪声。你将看到,对同一批人在多个案例上做出的判断进行噪声审查,有利于更详细地分析系统噪声。
判决中的噪声审查
为了说明多起案件的噪声分析结果,我们对美国联邦法官的判决进行了非常详细的噪声审查。这一分析发表于1981年,也是我们在第1章介绍过的量刑改革运动的一部分。这一研究局限于判决,但我们能从中获得的经验是通用的,也适用于其他专业判断。进行噪声审查的目的不是检查弗兰克尔法官等人收集的逸闻趣事中的噪声,而是更系统地“确定量刑差异的程度”。
研究人员设计了16起虚构案件。在这些案件中,被告都犯下了罪行,即将接受审判。这些案件主要是关于抢劫犯或诈骗犯的,但他们在其他6个维度上存在差异,如被告是主犯还是从犯、是否有犯罪记录、是否使用武器(对抢劫犯而言)等。研究人员精心组织了面向美国全国范围内208名现任法官的结构性访谈。在90分钟的访谈中,研究人员向这些法官呈现16起案件的详细文件,并要求法官们做出判决。
图表可能更有助于我们对研究的理解。请想象有一张大表格,表格中有16列,对应从A到P的16起案件;有208行,对应208名法官。从A1到P208的每一个单元格对应一位法官对每起案件的量刑。图6-1展示了这3328个单元格的表格样貌。为了研究噪声,我们需要将注意力集中在这16列上,其中每一列对应一个独立的噪声审查。
图6-1 判决研究示例
平均刑期,每一起案件的判决都存在大量噪声
由于没有办法客观地确定某一起案件量刑的“真实值”,所以接下来,我们将208名法官对每起案件判定刑期的均值作为对该案件的“公正”判决。正如我们在第1章中指出的,美国量刑委员会在将以往审判中的平均值作为制定量刑指南的基础时,也以同样的假设为前提。刑期均值假定,对每起案件对应的刑期取平均值,那么这起案件中的偏差为0。
我们很清楚,这一假设在现实生活中是错误的:一些案件对应的平均刑期与其他高度相似的案件的平均刑期相比,可能存在较大偏差,比如也许是种族歧视等因素所致。不同案件中存在的偏差也不尽相同,有些是正偏差,有些是负偏差,它们是造成误差和不公平的主要成因。令人困惑的是,这种差异经常被称为“偏差”。本章以及本书分析的焦点都是噪声,它是误差的另一个成因。弗兰克尔法官强调了噪声导致的不公正,同时也引起了人们对偏差(包括种族歧视)的关注。同样,我们强调噪声的影响,并不代表我们认为测量和消除偏差不重要。
为了方便起见,我们在表格的最后一行给出每起案件对应的刑期均值。这些案件按照严重程度从低到高排列:案件A对应的平均刑期为1年;案件P对应的平均刑期为15.3年。所有16起案件对应的平均刑期为7年。
想象在一个完美的世界中,所有法官都是完美无瑕的司法公正的代言人,他们的量刑中不存在任何噪声。那么在这样一个世界中,图6-1看起来会是怎样的呢?显然,对于案件A来说,所有单元格中的刑期应该完全相同,因为每位法官都会判处被告1年刑期。其他案件的情况也是如此。当然,每一行中的数字仍然存在差异,毕竟案件不同,但每一列中的数字应该是相同的。不同案件对应的刑期之间的差异应该是导致该表格中出现变异性的唯一因素。
可惜,美国联邦法院并不存在于完美的世界中。法官们的量刑并不相同,每一列的数字之间的差异巨大,这意味着每一起案件的判决中都存在噪声。量刑中存在不应该存在的巨大变异性,而该研究的目的就在于对这种变异性进行分析。
判刑就像抽签
假设我们确实生活在上述完美世界中,每位法官对每起案件都会做出相同的判决,那么每列中的208个数字都应该相同。现在,为每一列从上到下增加噪声,并通过不时地在平均刑期上增加或减少刑期来改变一些数字。因为你的修改并不总是相同的,它们在每一列中都制造了变异。这种变异就是噪声。
本项研究的重要发现是,每起案件的判决中都存在大量噪声。我们可以通过计算每起案件对应刑期的标准差来测量噪声。这些案件对应的平均刑期为7年,标准差为3.4年。
或许你对标准差非常熟悉,但采用具体的描述或许更有助于理解。假设你随机选择两位法官,并计算他们在对同一案件的判决中存在的差异。重复这个过程,计算所有案件中任意两位法官的判决差异,取平均值。这种测量方法——计算平均绝对离差,会让你觉得被告就是在法庭上“抽签”。假想这些判决呈正态分布,平均绝对离差就是标准差的1.128倍,这表明,两位随机选择的法官对同一案件量刑的平均绝对离差为3.8年。在第3章中我们谈到,保险公司的客户在寻找专业核保员时,就像在抽签。只不过在刑事判决中,被告所面临的类似抽签的状况,其后果更加严重。
在平均刑期为7年的情况下,不同法官之间的平均绝对离差达到3.8年,这令人不安,也是难以接受的。然而,我们有充足的理由相信,现实的执法中甚至存在更严重的噪声。首先,噪声审查中的被试处理的是虚构的案件,这些案件同时放在一起,很容易比较。现实世界中几乎不可能具备如此多的保持判断一致性的因素。其次,在法庭上,法官拥有的信息要比这项研究的信息多得多。除非新的信息是决定性的信息,否则它们更有可能导致法官们的分歧。因此我们认为,在实际的庭审中,被告面临的噪声要比我们在这里看到的多得多。
水平噪声
在接下来的分析中,我们会将噪声分解成不同成分。对于噪声,你脑海中的第一个念头可能是,噪声是由法官们在量刑时的严厉程度不一所致,就像弗兰克尔法官认为的那样。正如一些辩护律师告诉你的:法官们各有特点。有的人是“铁面判官”,他们比一般法官更严厉;有的人是“柔情法官”,他们比一般法官更仁慈。我们将这些差异称为“水平误差”(level errors)。(再次提醒:这里的误差是指判决结果与平均值之间的差异;如果判决结果的平均值是错的,一个误差可能反倒纠正了这种不公正。)
任何判断都会存在不同程度的水平误差。例如,在进行绩效评估时,一些主管比其他人更宽容;在预测市场份额时,一些预测者比其他人更乐观;在是否需要实施背部手术时,一些骨科医生比其他医生的态度更积极。
在图6-1的表格中,每一行显示的是同一位法官对不同案件的判决结果。每一位法官判定的平均刑期展示在表的最右侧一列,这一列的数据反映了每一位法官的严厉程度。正如该表格所示,在这一维度上,法官之间的差异很大。表格最右侧这一列数字的标准差为2.4年。这种差异与公正无关。事实上,正如你所怀疑的那样,每位法官在平均刑期上的差异反映了不同法官在其他特征上的差异,例如他们的背景、生活阅历、政治倾向、偏见等。研究人员还考察了每位法官对于量刑的根本态度,比如,法官认为量刑定罪的主要目的究竟是让罪犯无法再危害社会(与社会隔离),还是对罪犯进行改造,抑或是对犯罪起威慑作用。研究人员发现,与持后两种观点的法官相比,持第一种观点的法官判处的刑期更短,监视居住的时间要长。此外,美国南部的法官比美国其他地区的法官判定的刑期明显要长。这说明,刑罚的严厉程度与保守的意识形态有关。
研究人员从中得出的一般性结论是,量刑的平均水平就像人格特征。你可以根据这项研究结果,将法官按“非常严厉”到“非常宽容”进行排序,就像用人格测试来衡量人的外向或平易近人程度。像其他人格特征一样,我们推测,量刑的严重程度与基因、生活阅历以及人格的其他方面相关,但这些因素与法官们审判的案件或被告无任何关系。我们用“水平噪声”(level noise)一词来代表每位法官所判处的平均刑期之间的变异性,这与水平误差的变异性是等同的。
模式噪声
如图6-1中黑色箭头所示,该案例的水平噪声是2.4年,系统噪声是3.4年。这两者之间的差异表明,除了法官们在平均刑期上的差异外,系统噪声还包括了其他成分,我们将这一成分称为“模式噪声”(pattern noise)。
要想理解模式噪声,我们再看一看图6-1,随机对一个单元格进行仔细观察,比如选择单元格C3。案件C对应的平均刑期在这一列的底部,你可以看到它是3.7年。现在,看一下最右侧的一列,找到3号法官对所有案件判定的刑期均值:5年。这个刑期均值比总体刑期均值少2年。如果法官严厉程度的变异是第3列中所有噪声的成因,你可能会预测,C3单元格中的刑期是3.7-2=1.7年。然而,实际上C3中的数字是4年,这表明3号法官在这一案件上表现得尤为严厉。
使用同样简单的相加逻辑,你可以推测表格中每一列的刑期。但事实上你会发现,大部分单元格中的数字与推测的数字之间存在差异。观察每一行,你会发现,法官们在自己审理的所有案件中并非表现得同样严格:在有些案件上,他们比自己量刑的平均水平严格;但在其他案件上,他们则表现得要宽容。我们将这种残存的变异称为“模式误差”(pattern errors)。如果你在表格的每一个单元格中写下这些模式误差,就会发现:对于每一位法官(行)而言,这些模式误差之和为0;对每一起案件(列)而言,它们的和也是0。但模式误差对噪声的影响不能相互抵消,因为在计算噪声时,使用的是每个单元格中数值的平方。
有一个简单方法可以证明,刑期的简单相加模型并不适用于计算噪声。你可以看到,表格的每一列底部的刑期均值从左到右依次增加,但每一行的情况却并非如此。例如,208号法官对案件O中的被告判定的刑期比案件P中的更长。如果根据每位法官判定刑期的长短排序,那么在他们的排序中,每起案件所在的位置会产生不同。
我们用“模式噪声”一词来表示上文提到的变异性,因为这种变异性反映了法官们对具体案件的态度的复杂模式。例如,一位法官总体来说比其他法官更严格,但对于白领罪犯更宽容。另外一位法官可能总体上倾向于从轻处罚,但对于惯犯更严格。还有一位法官的宽严程度跟一般法官差不多,但如果被告只是从犯,他会表现出更多的同情,而如果受害者是老年人,这位法官会更严厉。我们用“模式噪声”这个说法是为了增加可读性。模式噪声的统计术语是“法官×案件的交互作用”——可以读作“法官乘以案件”。我们要对受过统计学训练的人说声抱歉,因为对他们而言无须进行这些解读。
在刑事司法的背景下,对案件的一些独特反应可能体现了法官的个人量刑哲学。其他的反应可能来自法官本人都没有意识到的联想,例如,被告让他想起一个特别可恨的罪犯,或是被告长得像他的孩子。无论原因是什么,这些模式并不是偶然出现的。我们可以推测,如果重审同样的案件,他们还会做出相同的反应。然而,模式噪声在实践中很难预测,这导致本已像抽签一样的审判更加充满不确定性。这项研究的作者指出:“法官受犯罪情节或被告特征的影响而导致审判中出现模式化的差别”,是“同罪不同罚的另一种形式”。
你可能已经注意到,将系统噪声分解成水平噪声和模式噪声,与第5章提到的误差方程(将误差分解为噪声和偏差)遵循的是同样的逻辑。对噪声方程的具体表述请见下面。
系统噪声2
=
水平噪声2
+
模式噪声2
System Noise2
=
Level Noise2
+
Pattern Noise2
这个方程也可以采用误差方程那样的视觉表现形式(见图6-2)。我们将三角形的两条直角边表现为相等的长度。这是因为,在审判研究中,模式噪声和水平噪声对系统噪声的贡献几乎相同。
图6-2 分解系统噪声
模式噪声无处不在。医生决定患者是否需要住院,公司决定雇用谁,律师决定受理哪些案件,好莱坞的高管决定制作哪些电影……所有这些案例中都会存在模式噪声,不同的判断者会做出不同的判断。
噪声的成分
我们对模式噪声的处理掩盖了一个重要的复杂性:随机误差可能对模式噪声产生影响。
回想一下秒表实验:你连续测量10秒的时间长度,但每一次的测量结果与前一次都可能存在差别,此时你表现出了个体内的差异。同样,如果要求法官们在其他场景中再次为16起案件量刑,他们做出的量刑结果也不可能和第一次完全相同。事实上,正如你所见,如果该实验分别在同一个星期内的不同两天开展,他们做出的量刑结果也可能不同。如果法官因为种种原因(比如他的孩子有好事发生,他钟爱的球队昨晚赢得了比赛,或是天气很好)而心情愉快,那么他的判决会比其他时候更宽容。个体内的这种变异性与我们已经讨论过的个体间的稳定变异不同,但我们很难将这两种变异的成因区分开来。我们将这种转瞬即逝的因素所导致的变异称为情境噪声。
我们有意忽视了本研究中的情境噪声,而选择将噪声审查中法官独特的审判模式解释为稳定的态度。这一假设无疑过于乐观,但我们有理由相信,情境噪声在本研究中并未产生很大影响。参与这项研究的都是经验丰富的法官,他们对被告及其所犯罪行各项特征的意义已经具有一些固定的看法。在下一章,我们将更详细地讨论情境噪声,并展示如何将其与稳定的模式噪声进行区分。
总而言之,我们讨论了几种类型的噪声。系统噪声是由多个个体对同一案例进行判断时产生的不必要的变异。我们发现了噪声的两个主要成分。当同一批人评估多个案例时,我们就可以对这两种成分进行区分。
· 水平噪声是指不同法官做出的判决与平均值之间的变异。
· 模式噪声是指法官对特定案件做出的反应的变异。
在本研究中,水平噪声和模式噪声的数量几乎相等。然而,模式噪声中肯定会包含一些情境噪声,后者可以被看作随机误差。
我们借由在司法系统中进行的噪声审查对此进行了说明,同样的分析也适用于其他所有领域,比如商业、医疗、政府管理等。水平噪声和模式噪声(包括情境噪声)都会导致系统噪声,我们随后将多次介绍它们。
· 消除噪声
在现实世界中,噪声无处不在
· 法官之间表现出的不同严厉程度会产生水平噪声。当法官们对被告应该受到更严厉还是更宽松的惩罚意见不一时,就产生了模式噪声。模式噪声中有一部分是情境噪声——法官们自身的行为出现了不一致。
· 在一个完美的世界中,被告面临的将是公正的审判;但在现实世界中,他们面对的是有噪声的系统。
第7章
情境噪声,无时无刻不在影响着我们的判断
想象一名职业篮球运动员正在准备罚球的场景:他站在罚球线上,全神贯注地准备投篮。这是他练习过无数次的一系列动作,他能投中吗?我们无法预知结果。
在NBA的比赛中,球员们通常能够4罚3中。显然,一些球员比其他球员表现得更好,但没有人能做到百发百中(3)。虽然篮筐一直都是距离地面3.05米,与罚球线的垂直距离一直是4.6米,篮球也一直都是重624克,精确地重复能够得分的一系列肢体动作却并非易事。变异不仅存在于球员之间,也存在于球员自身,这与我们推测的情况一致。罚球就像抽签,虽然库里比奥尼尔投中的概率更高,但依然像是在抽签。
这种变异来自何处?我们知道,很多因素都会影响球员的罚球命中率,比如长时间比赛的疲劳、比分接近时的心理压力、主场的欢呼声、对方球迷的嘘声。如果像库里或纳什这样的球员没投中,那么我们会做出如上的解释,但事实上,我们不太可能知道这些因素到底起了什么作用。因此可以说,球员表现中的变异性就是一种噪声。
第二次抽签
在罚球或人类的其他生理过程中存在变异性,这不足为奇。我们习惯了身体里的变异性,比如我们的心率、血压、下意识的反应、音调、手的颤抖等在不同时间都是不同的。无论我们多么努力地想要写下相同的签名,但每一张支票上的签名仍略有不同。
想要观察人类思维上的变异性尤其不易。当然,即使没有新的信息,我们也都有改变主意的经历,比如,前一天晚上令我们捧腹大笑的电影,此时看起来就可能平庸无奇,很容易淡忘;前一天受到严厉审判的那个人,现在看来应该得到宽恕;一个我们曾经不喜欢或不理解的观点,现在觉得很有道理。但是,正如这些例子所表明的,我们通常会将这种改变与相对没那么重要且非常主观的事情联系起来。
在现实世界中,我们也会在缺少有说服力的理由时改变主意,即使是对判断持高度审慎态度的专业人士也是如此。例如,同一位医生先后两次对同一病例做出的诊断常常会有显著的不同(见第22章)。在美国的一个大型葡萄酒比赛中,专家先后两次品尝了同一种葡萄酒,然而他们给出相同评分的可能性也只有18%,而且通常是对最差的酒打出的。仅仅相隔几个星期,指纹鉴定专家先后两次检查同一枚指纹时,也常常会得出不同的结论(见第20章)。经验丰富的软件顾问会在两种不同的情况下对同一任务的完成时间做出明显不同的估计。简而言之,篮球运动员不可能在两次投篮时采用完全相同的姿势,我们也并不总能在两种情境中对同一事实做出相同的判断。
至此,我们描述了像抽签一样“选择”核保员、法官或医生时所产生的系统噪声。情境噪声则类似于第二次抽签,这次抽签“选择”了专家做出判断的时机、他们的心情、他们以前是否遇到过类似案件,以及情境中的无数其他因素。第二次抽签往往比第一次抽签更抽象。如果在第一次抽签中“选择”了不同的核保员,我们是容易看到“选择”的结果,但要想了解该核保员“实际反应”的其他可能性,则有赖于抽象的反事实思考。我们只知道这一判断是从一系列可能的判断中挑选出来的,而情境噪声是这一系列不可见的可能性产生的变异。
测量情境噪声
测量情境噪声并不容易,因此一旦检测到它的存在,人们会感到惊讶不已。一旦人们形成了一个经过审慎思考的专业意见,他们就会找理由支持该意见。如果有人要求他们对自己的判断做出解释,他们就会以自认为具有说服力的论据来捍卫这一判断。如果他们再次遇到同样的问题,并且确定自己以前遇到过,他们就会给出与第一次相同的意见,以此来减少认知负担并维持一致性。设想一个关于教师的例子:如果一位教师给一篇作文评了非常高的分数,一个星期之后他又读了这篇作文并看到了第一次的评分,那么他这一次给出的评分不太可能与上一次差别很大。
因此,只要案例容易记住,直接测量情境噪声就很难。比如,你给一名核保员或法官展示一个他们以前处理过的案件,他们可能会回想起这起案件,从而重复自己以前的判断。一篇关于专业判断中存在变异性(4)的评论文章中提到了一些研究。这些研究发现,专家在同一环节做出了两次相同的判断,毫无疑问,他们倾向于与自己保持一致。
我们上文提到的实验使用了专家们不能再次辨认出的实验材料,从而绕开了这一问题。葡萄酒评委进行的是盲测;给指纹鉴定专家呈现的是他们已经鉴定过的一对指纹;给软件专家呈现的也是他们已经完成的项目。第二次任务是在几个星期或几个月之后进行的,并且实验人员没有透露这是专家们曾经鉴定过的案例。
还有另一个比较间接的方法可以确认是否存在情境噪声:借助大数据或计量经济学。当可以获得以往大量专业性决策的案例时,分析师们有时就能检验这些决策是否会受到特定情境或无关因素,比如一天的某个时间段或室外温度等的影响,如果这些无关因素产生了统计上的显著效应,则说明存在情境噪声。实事求是地说,不要指望发现可能导致情境噪声的所有外部因素,那些我们已经发现的因素就足以说明存在大量多种多样的因素。如果要掌控情境噪声,我们就必须了解它的产生机制。
群体智慧效应:一个是一群
思考下面这个问题:美国的机场数量占全世界机场总数的百分比是多少?当你思考的时候,一个答案可能会跳进你的脑海,但这个答案产生的方式与你回忆自己的年龄或电话号码时不同。你会注意到,你脑海中出现的数字是一个估计值,当然,它不是一个随机数字——1%或99%显然不是正确的答案。你给出的数字是一系列不可能被排除的可能数字中的一个,如果有人将你的答案加上或减去1%,你可能不会觉得这个答案比你给出的答案的准确性差。正确答案是32%。
爱德华·沃尔(Edward Vul)和哈罗德·帕什勒(Harold Pashler)这两位研究人员想到,可以要求人们回答这一问题以及其他类似的问题两次,而不是一次,并要确保被试事前并不知晓他们需要第二次作答。沃尔和帕什勒假设,对两次答案取平均数会比单次答案(无论是第一次还是第二次的答案)的准确性更好。
结果证明他们是对的。总体而言,第一次的答案比第二次的答案更接近真实值,而最准确的估计值是两次推测的平均数。
沃尔和帕什勒的灵感来自一个非常著名的现象——群体智慧效应,它是指对人们的独立判断进行平均会提高判断的准确性。1906年,达尔文的表弟、著名博学大师弗朗西斯·高尔顿(Francis Galton)在一次乡村集市上目睹了787名村民估计一头获奖的公牛的重量。没有一位村民准确猜到公牛的实际重量——大概是1198磅(5),但他们猜测的平均值是1197磅,与实际值仅相差1磅。村民们估值的中位数(1207)与实际值也非常接近。虽然村民个体的估值充满噪声,但全部估值的平均值偏差极小,就这一点而言,村民们是智慧的群体。这一结果让高尔顿备感吃惊,因此,虽然他对普通人的判断并不看好,但他还是极力主张“民主判断的结果,比想象中更值得信赖”。
类似的结果是从成百上千个情境中获得的。当然,如果问题很难,只有专家才能够获得相对准确的答案,那么群体的答案就不会更准确。但是,当让人们猜测透明罐子里夹心糖的数量、预测一个星期后当地的气温,或是估计美国一个州内两个城市之间的距离时,一大群人的平均答案可能更接近事实。出现这种情况的原因是一个基本的统计事实:对多个独立判断或测量进行平均会产生一个新的判断,虽然这一判断不一定会比个体判断产生更少的偏差,但它会产生更少的噪声。
沃尔和帕什勒想要看看同样的结果是否也适用于情境噪声:将同一个体的两次猜测进行平均,是否就像将不同人的猜测进行平均一样更接近真实值?沃尔和帕什勒的发现表明,答案是肯定的,他们给这个发现起了一个令人印象深刻的名字:内部群体(the crowd within)。
对同一个体的两次猜测进行平均,对于决策品质的提升效果并没有对两个独立个体的意见进行平均时更好。正如沃尔和帕什勒所指出的:“你对同一个问题做出两次回答带来的好处,是向另一独立个体寻求建议时所获好处的1/10。”显然,这种改进并不大,但如果你能等待一段时间再去做第二次猜测,你所获得的好处会大得多。沃尔和帕什勒在3个星期之后再问被试同样的问题,此时这种做法带来的好处上升到向另一个人寻求意见带来的好处的2/3。在无须额外信息以及外在帮助的情况下,这种方法已经非常不错了。这一结果明显为一种古老的决策智慧提供了理论依据,那就是:“睡一觉吧,明天再说。”
德国研究人员斯蒂芬·赫佐格(Stefan Herzog)和拉尔夫·赫维格(Ralph Hertwig)差不多与沃尔和帕什勒同时提出了另一种基于相同原则的方法。赫佐格和赫维格不是要求人们做出第二次评估,而是鼓励人们尽可能想出其他可能,从而做出与第一次评估不同的评估。这样一来,被试就会积极思考他们在第一次评估时没有考虑到的相关信息。具体做法如下:
首先,假设你的第一次评估是不正确的。其次,思考导致第一次评估出错的几个可能原因——哪些假设或考虑的问题错了?再次,这些需重新考虑的问题意味着什么?第一次评估是过高还是过低?最后,根据这些新的观点做出不同于第一次评估的第二次评估。
与沃尔和帕什勒一样,赫佐格和赫维格会对前后两次评估进行平均。赫佐格和赫维格将这一技术命名为“自我重复抽样法”(dialectical bootstrapping)。相比于只让被试在第一次评估之后立刻进行第二次评估,这种方法大大提升了判断的准确率。因为被试迫使自己从一个新的视角考虑问题,他们创建了另一个样本,选取了另一个版本的自己,进而构成了两个互相分离的“内部群体”成员。因此,二者的平均产生了一个更准确的评估。两个即刻、连续进行的辩证性评估在判断准确度上的获益,是听取他人意见时的一半。
正如赫佐格和赫维格总结的那样,决策者最终要做的是在不同方法之间做出一个简单的选择:如果你能从别人那里得到独立的意见,那么就去做吧,因为这种真正的群体智慧很可能会提升你的判断水平;如果不能,你可以再次做出判断,以此创造一个“内部群体”。针对后者,你可以采用两种方式:要么隔一段时间再做出第二次判断,要么质疑自己的第一次判断,从另一个角度来看待问题。此外,不管是哪一种类型的“群体”,除非你有充足的证据表明需要对其中一次评估赋予更高的权重,否则对两次判断进行平均后的判断就是最佳判断。
除了实用的建议之外,这一系列研究还确认了一个关于判断的本质观点。正如沃尔和帕什勒指出的那样:“被试的反应是从一个内部的概率分布中抽取的,并不是根据被试掌握的全部知识来确定的。”这一发现与你回答美国机场问题时的过程相一致:你的第一个答案并不是根据你的全部知识甚至那些关键的知识得出的,你给出的答案只是你头脑中可能产生的一系列答案中的一个。我们从同一个人对同一个问题的判断中观察到的变异性,并不是一些高度专业的问题中存在的偶然现象,事实上,情境噪声无时无刻不在影响着我们的判断。
情绪,情境噪声的源头
我们至少能够注意到一种情境噪声的来源:情绪。每个人都有过情绪影响判断的经历,而且你肯定意识到了,他人的判断也会受到情绪的影响。
情绪对判断的影响已经成为大量心理学研究的关注点。我们很容易通过一些策略来让人们暂时开心或悲伤,然后测量相应的情绪被诱发之后他们的判断和决策的变异性,比如让人们写下一段开心或悲伤的记忆,或只是简单地让他们看一段有趣的或催人泪下的电影片段。
一些心理学家花费了数十年时间来研究操纵情绪可能产生的效果。其中最高产的也许是澳大利亚心理学家约瑟夫·福加斯(Joseph Forgas),他发表了大约100篇关于情绪的科学论文。
福加斯的一些研究验证了你的思考:一般来说,具有良好情绪的人会更加积极。相比于悲伤的记忆,他们更容易回忆起愉快的记忆,而且他们更倾向于赞同他人,更慷慨,也更乐于助人。消极情绪的作用则刚好相反。正如福加斯所说:“对于同一个微笑,拥有积极情绪的人看到友好,而拥有消极情绪的人可能感到不适。一个人情绪良好的时候,讨论天气会兴致盎然,而当他情绪不好的时候,该话题则显得枯燥乏味。”
换句话说,情绪会对你的思维产生可预见的影响,它关系到你会注意环境中的哪些事物、从记忆中提取哪些信息,以及如何解读这些信息。情绪还会产生另外一个更令人吃惊的效应——它会改变你的思维方式,这种效应甚至超乎你的想象。好的情绪是一把双刃剑,不好的情绪也可能成为困境中的一线希望,不同情绪的利与弊取决于具体的情境。
例如,在谈判中,好的情绪大有裨益。具有良好情绪的人会更富有合作精神、更容易促成互利互惠的局面。最终,他们往往能比情绪不好的谈判者获得更好的谈判结果。当然,成功的谈判也能让人们更开心,但在这些研究中,情绪并不是由谈判过程产生的,而是在谈判之前被诱发的。此外,谈判过程中从情绪良好转向愤怒的谈判者也可能会获得更好的结果——当你遇到一个顽固的对手时要记住这一点!
良好的情绪还会让人更容易接受第一印象。在福加斯的一项研究中,实验人员要求参与者阅读一篇简短的哲学论文,这篇论文随附了作者的照片。一些读者看到了一位典型的哲学教授——男性、中年、戴着眼镜;另一些读者看到的却是一位年轻的女士。和你猜测的一样,这项研究考察的是被试是否容易受刻板印象的影响:相比于年轻女士所写的论文,人们更偏爱由中年男性所写的论文吗?结果表明,的确如此。但更重要的是,在情绪良好的情境中,这种差异更大,拥有良好情绪的人更容易受到偏差的影响。
还有一些研究考察了情绪与上当受骗之间的关系。心理学家戈登·彭尼库克(Gordon Pennycook)及其同事开展了一系列研究,来考察人们对毫无意义、看似深奥实则虚假的陈述的反应。这些虚假的陈述是这样产生的:从一些广为流传的名言中随机挑选出名词和动词,然后组合成语法正确的句子,如“完整性平息了无穷的现象”或“隐藏的意义使无与伦比的抽象美变化无穷”。同意这些陈述的倾向是一种被称为“废话接受力”(bullshit receptivity)的特征。自哈里·法兰克福(Harry Frankfurt)之后,废话已经成为一个术语。法兰克福是普林斯顿大学的哲学家,他写了一本见解独到的书《论扯淡》(On Bullshit)。在这本书中,他将废话与其他类型的虚假陈述进行了区分。
确实,有一些人比其他人更倾向于接受废话。他们可能会被看似令人印象深刻的断言所打动,这些断言虽然看起来真实而有意义,但实际上空洞无物。这里的容易上当受骗并非是一种永久性的、无法改变的倾向。诱发良好的情绪会让人们更容易接受废话,以及更容易上当受骗。他们不太容易觉察到具有欺骗性或误导性的信息。相反,处于不良情绪中的目击者在看到这些具有误导性的信息时,更有可能忽视它们,从而避免做出虚假指证。
即使是道德判断也会受到情绪的强烈影响。在一项研究中,研究人员让被试回答“天桥难题”(footbridge problem),这是道德哲学中的一个经典问题。在一个假想的情境中,5个人即将被一辆失控的电车撞死。研究人员要求被试想象自己就站在天桥上,电车很快就会从桥下经过。被试需要决定是否要把旁边一个大个子男人从天桥上推下去,使其落到铁轨上,这样他的身体就能使电车停下来。如果被试这样做了,那么大个子男人会死,但那5个人会因此而得救。
天桥难题体现了道德推理思维之间的冲突。英国哲学家杰里米·边沁(Jeremy Bentham)提出的功利主义认为,失去1条生命比失去5条生命要好。而康德(Immanuel Kant)的道德义务论则认为,不能以拯救更多人的名义杀害某个人。天桥难题明显包含个人的情绪因素:把一个人从桥上推下去落到电车轨道上是一种特别令人厌恶的行为。要从功利主义的角度把这个人从桥上推下去,需要人们克服对伤害陌生人身体这种行为的厌恶。只有少数人表示他们会这么做,在这项研究中,这部分人占比不到1/10。
然而,我们可以通过让被试观看5分钟视频短片的方式来诱发他们良好的情绪,这时他们打算将人推下天桥的可能性增加了3倍。无论我们是把“不可杀人”作为一个绝对的原则,还是愿意杀死一个陌生人来救活5个人,这都应该体现我们最深层的价值观。然而,我们的选择似乎只是取决于刚刚观看的视频短片。
我们详细描述了这些关于情绪的研究,因为我们需要强调一个很重要的事实:你并非在所有时刻都一样。随着情绪的变化(有时候你会意识到),你的认知机制也会改变(你可能根本意识不到)。如果你面临一个复杂的判断问题,当前的情绪会影响你对这个问题的思考以及得出的结论,即便你认为你的判断没有受到情绪的影响,并且能很自信地阐明自己给出最终答案的理由。简而言之,你的判断充满噪声。
其他许多偶然因素也会诱发判断中的情境噪声。在不应该影响但实际上影响了专业判断的诸多外在因素中,压力和疲劳是两个主要因素。一项针对近70万次基层保健门诊就诊情况的研究表明,医生在漫长的一天结束时开阿片类药物的可能性显著增加,然而,没有理由认为预约下午4点就诊的患者比早上9点就诊的患者更痛苦。医生落后的看诊进度也不应该影响处方的决策。事实上,其他治疗疼痛的处方,如非甾体类消炎止痛药以及转介物理治疗,并没有显示出类似的模式。当医生面临着时间压力时,他们显然更倾向于选择快速的解决方案,虽然这样可能会产生一些严重的问题。其他研究也显示,在一天将要结束时,医生开抗生素处方的可能性更大,而开流感疫苗处方的可能性较小。
甚至天气也会对专业判断产生显著的影响。天气的影响可能会通过情绪产生作用,即天气虽不会直接影响决策,但会影响决策者的情绪,进而影响决策。不好的天气与记忆力的增强有一定的相关性;当天气炎热时,司法审判会更严厉;阳光明媚的天气会影响股市的走向。而在其他一些案例中,天气的影响则不那么明显。心理学家尤里·西蒙松(Uri Simonsohn)发现,高校招生人员在阴天时更关注候选人的学术表现,而在晴天时对非学术表现更敏感。他报告这些发现时采用的文章标题足以令人难忘——“云让书呆子看起来不错”。
判断会随机变异的另一个案例是不同案件所处的考察顺序。当一个人在思考一起案件的时候,此前一起案件的决策就成了一个潜在的参照点。包括法官、贷款专员以及棒球裁判员在内的做出一系列决策的专业人士,倾向于恢复某种形式的平衡:在连续朝着同一方向做出一系列决策之后,他们更有可能朝着相反的方向做出决策。严格意义上说,后面这些决策是不合理的,因为这样难免会出现误差和不公正。例如,在美国,当前面两个庇护申请获得庇护法官的批准时,下一个庇护申请获得批准的可能性会降低19%。在申请贷款时,如果前面两个申请都被拒绝了,那么接下来的申请很有可能得到批准;但如果前面两个人的申请获得了批准,那么相同的申请此时则更有可能遭到拒绝。这种行为反映了一种被称为“赌徒谬误”(gamblers fallacy)的认知偏差,它指的是人们会认为随机序列中一个事件发生的概率与此前发生的事件有关,从而低估了“坏运气”再一次发生的可能性。
衡量情境噪声
相对于整体的系统噪声,情境噪声有多大呢?虽然没有一个原则适用于所有情境,但存在一个一般性的原则:就大小而言,本章所涉及的这些情境噪声要小于个体在水平噪声和模式噪声方面的稳定差异。
例如,正如上文所提及的,如果同一位法官连续两次批准了庇护申请,那么接下来的申请获得批准的可能性会下降19%。这种变异性肯定是有问题的,但如果与不同法官之间的变异性相比就是小巫见大巫了:天普大学法学院教授杰亚·拉姆基-诺加莱斯(Jaya Ramji-Nogales)及其合作者发现,在迈阿密的一家法院,一位法官批准了88%的庇护申请,而另一位法官只批准了5%的庇护申请。这是真实的数据,不是进行噪声审查的实验数据,因此申请者是不同的,但这些申请者的申请由哪位法官受理可以说是随机的。拉姆基-诺加莱斯及其合作者发现,申请人来源国的差异并不能解释这种差异。如果差异如此巨大,那么申请获得批准的概率下降19%好像也没有什么大不了。
同样,指纹鉴定人员和医生有时候也会做出自相矛盾的判断,但这种情况远远少于与其他人的判断不一致的情况。在我们回顾的每一个案例中,情境噪声在系统噪声中所占的比例都是可以测量的,情境噪声所占的比例皆小于个体间的差异。因此可以这样说:你不可能永远是同一个人,随着时间的流逝,你远没有你所想象的那么前后一致;但令人欣慰的是,与其他人相比,今天的你更像昨天的自己。
造成情境噪声的内部原因
情绪、疲劳、天气、顺序效应等许多因素都可能导致同一个人在对同一案件做出判断时,产生我们不愿看到的变异。我们可能希望构建一个环境,在这个环境中,所有与决策有关的外部因素均是已知、可控的,至少从理论上来说,这样的情境可以减少情境噪声。但即使是这样的情境,也不足以彻底地消除情境噪声。
宾夕法尼亚大学心理学家迈克尔·卡哈纳(Michael Kahana)及其同事研究了记忆的表现。根据我们的定义,记忆不是一项判断任务,而是一项认知任务,可以对其条件进行严格控制,也很容易测量其表现。在其中一项研究中,他们对79名被试的记忆表现进行了非常深入的分析。被试要在不同的日子里参加23场测试会,在此期间他们需要对每组包含24个单词的24组单词进行回忆。他们所能回忆起来的单词数量可以作为记忆表现的指标。
卡哈纳及其同事感兴趣的不是被试之间的差异,而是哪些因素能够预测不同被试之间的差异。不同被试的警觉程度与前一天晚上的睡眠情况是否会影响记忆表现?他们的记忆表现是否会因在一次次的测试会中反复练习而得到提升?在每一次测试会中,记忆表现是否会由于感到疲劳或无聊而降低?是否有一些列表中的单词比其他列表中的单词更容易被记住?
上述所有问题的回答都是肯定的,但对结果的影响并不大。将所有这些因素纳入一个模型中,也只能解释某个特定被试记忆表现差异的11%。正如研究人员所指出的那样:“剔除这些可预测的因素的影响后,还剩下如此大的变异,这着实令我们吃惊不已。”即使在这种严格控制的情境中,到底是哪些因素引发了情境噪声,仍是未知的。
在研究者分析的所有因素中,强烈影响被试对某组单词的记忆表现的一个预测因素,并非外部因素。被试记忆某组单词的表现在很大程度上受他的前一组单词记忆表现的影响。如果他在记忆前一组单词时表现良好,那么他接下来的表现也会很好;如果他在记忆前一组单词时表现一般,那么他接下来的表现也会一般。被试在记忆每一组单词时表现出的差异并不是随机的:在每一次测试会中,它会随着时间的推移而有所起伏,并且没有受明显的外部因素的影响。
用卡哈纳及其同事的话说,这些结果表明,记忆表现在很大程度上受“控制记忆功能的内源性神经过程效率”的影响。换句话说,大脑效率的即时变化并不源于天气或分心等外部因素的影响,而是一种大脑自身运作的特征。
大脑功能的内部变异很有可能以一种我们完全无法控制的方式来影响我们的判断,大脑功能的这种变异性应该可以打消人们认为情境噪声可以被彻底消除的想法。用篮球运动员的罚球进行类比并不像最初看起来那样简单:正如运动员的肌肉从来不会执行完全相同的动作一样,我们的神经元也从来不会以完全相同的方式运作。如果我们的大脑是一种测量工具,那么它永远是不完美的。
然而,我们仍然可以努力去控制这些不应出现但可控的影响,当判断是由群体做出时尤其应该如此。关于这一点,我们将在第8章中进行讨论。
· 消除噪声
情境噪声不是系统噪声的最主要成因
· 判断就像罚球:我们无论多么希望能够精确地重复,都永远无法做到完全相同。
· 你的判断依赖于你的情绪、你刚刚讨论过的案件甚至天气。在不同的时间里,你不可能一直是同一个自己。
· 虽然你做不到与上个星期的自己完全一致,但与今天的他人相比,今天的你更像上个星期的自己。也就是说,情境噪声不是系统噪声的最主要成因。
第8章
群体是如何放大噪声的
个体判断中存在噪声的结果已经很糟糕了,但群体决策中的噪声危害更甚。群体决策可能会由于一些无关因素而朝任何一个方向改变。谁先发言、谁后发言,谁说话更自信,谁穿着黑色衣服,谁和谁挨着坐,谁在某个时刻笑了/皱眉了/呈现出其他身体姿势……所有这些因素都会影响结果。相似的群体每一天都会做出各种不同的决策,如雇用、晋升、破产、沟通策略、环境保护条例、国家安全、大学录取或新产品发布等方面的决策。
我们在前文曾提到,对多个个体的判断进行汇总可以减少噪声,而这里又强调群体会放大噪声,似乎显得很奇怪。然而,受群体动态过程的影响,群体也会放大噪声。有做出的判断与正确答案接近的明智的群体,但也有追随暴君的群体、增加市场泡沫的群体、相信奇迹或受共同幻想支配的群体。微小的差别可能导致一个群体坚定地说“是”,而本质上相同的另一个群体却坚定地说“否”。群体成员之间的互动会导致数量巨大的噪声,这也正是我们此处强调的重点。无论是对于相似群体之间的噪声,还是对于单个群体中的噪声,上述假设都是成立的。因此,无论是单个群体还是多个群体,都是如此。我们应该把这些群体对某个重要问题的判断视作一系列可能性中的一个。
音乐中的噪声
为了寻找证据,我们从一个看似不太可能的地方开始:普林斯顿大学社会学教授马修·萨尔加尼克(Matthew Salganik)和他的合作者开展了一项关于音乐下载的大型研究。实验人员创建了一个由几千人组成的控制组(某流行音乐网站的访客)。控制组成员可以试听并下载72首新歌中的1首或多首。这些歌曲的名字都很生动:《深陷橘子皮》《啃》《眼罩》《棒球术士v1》《粉红侵略》等。还有一些歌曲名字跟我们的问题看起来好像十分相关:《最好的错误》《我是个错误》《信念高于答案》《生活的神秘》《祝我好运》《走出困境》等。
在控制组中,被试未被告知其他人说了什么以及做了什么等额外的信息,这样一来,他们就可以独立判断自己喜欢哪一首歌或希望下载哪一首歌。但萨尔加尼克及其同事还创建了其他8个组,对应8种群体情境,并将成千上万的被试随机分配到这些情境中。这8组被试获知的所有其他信息都是相同的,但有一处不同:人们可以看到同组中的其他人先前下载过哪些歌曲。例如,如果《最好的错误》是该组中深受喜爱的歌曲,那么所有成员都可以看到;同样,如果一首歌完全没有人下载,他们也可以看到。
因为不同的群体在任何重要的维度上均无差别,这项研究看起来就像是重复了8次。你可能会推测,好听歌曲的排名会上升,而不好听歌曲的排名则会下降,如果是这样,这些不同群体中的歌曲排名应该相同,或至少相似,即不同群体之间没有噪声。事实上,这也是萨尔加尼克及其同事试图去探讨的问题,他们考察的是一种特定的噪声源:社会影响。
该研究的核心发现是:不同群体中的歌曲排名差异巨大,也就是说,在不同群体之间存在大量噪声。在某个群体中,《最好的错误》可能非常成功,而《我是个错误》则非常失败;在另一个群体中,《我是个错误》极其成功,但《最好的错误》的表现则一塌糊涂。如果一首歌一开始就备受欢迎,它随后也一定会表现得更好,而如果它一开始没有获得这种优势,那么结果就难说了。
可以肯定的是,最差的歌曲(在控制组中表现最差)排名不可能靠前,最好的歌也不太可能垫底,而对于其他歌曲而言,任何事情都有可能发生。正如作者所强调的那样:“相比于独立判断,人们在有社会影响的条件下,更难预测哪些歌曲会成功。”简而言之,社会影响在不同群体之间产生了明显的噪声。如果你仔细思考,你就会知道,单个群体内部也会存在噪声,因为他们很容易就喜欢一首歌或不喜欢一首歌,这取决于这首歌一开始是否受欢迎。
正如萨尔加尼克及其同事随后所展示的,群体的结果很容易被操纵,因为流行程度会自我强化。在后续实验中,他们动了点小心思,对控制组中的歌曲排名进行了反转。换句话说,他们谎报了这些歌曲的受欢迎程度,人们看到的最好的音乐其实是最差的音乐,反之亦然。研究人员随后观察了访客们的反应,结果是,最不受欢迎的歌曲深受喜爱,而原来最受欢迎的歌曲则表现非常差。即使研究人员误导了人们哪些歌曲是受欢迎的,但在人数非常大的群体中,受欢迎和不受欢迎程度受排名的影响是相同的。唯一的例外是,随着时间的推移,控制组中最好听的歌曲会逐渐变得更流行,这意味着反向排名也没有让它垫底。但是,对于绝大多数歌曲而言,反向排名决定了它们的最终排名。
我们很容易看出这项研究与一般性的群体判断的关系。假设有一个包含10名成员的小群体,他们要决定是否采用某项大胆的新举措。如果一两个支持者先发言,他们很容易使整个团队转向他们偏好的方向。如果最先发言的是持怀疑态度的人,情况也是如此,至少当人们能够互相影响时是如此。事实上,群体中的成员常常会互相影响,因此,仅仅是因为先发言的人不同,或者一开始下载某首歌的人更多,类似的群体会做出非常不同的判断。《最好的错误》和《我是个错误》的流行现象在各种专业判断中也存在。如果群体没有收到类似歌曲排名的信息,比如对某一大胆举措的热烈支持,该举措可能仅由于其支持者未发言而无法推进下去。
不仅仅是音乐下载,其他领域也一样
如果你是一个多疑的人,你可能会认为音乐下载只是一个特例,或者至少与其他的群体判断不同,然而,在其他领域也出现了类似的结果。我们来看一下在英国的公民投票(简称公投)中,人们对不同提案的支持情况。在公投中决定是否要投支持票时,人们自然要判断这是不是一个好的主意。这种模式类似于萨尔加尼克及其同事的研究:最初涌现的流行度会自我强化,如果某项提案在第一天没有受到关注,那么它很快就会沉寂。在政治领域就像在音乐实验中一样,支持与反对在很大程度上依赖于社会影响,具体而言,依赖于人们是否能看到其他人投的是支持票还是反对票。
美国康奈尔大学社会学家迈克尔·梅西(Michael Macy)及其合作者在音乐下载实验的基础上构建了另外一个实验,目的是弄清楚:他人的观点是否会影响人们的判断,使得相应的政治观点受到民主党人的欢迎,而遭到共和党人的反对(或者相反)。答案简单明了:是的。在网络群体中,如果民主党人看到某一观点一开始就受到其他民主党人的支持,那么他们就会采纳这一观点,并最终导致大部分民主党人支持这一观点。但是,如果另一个网络群体中的民主党人看到,某一观点一开始就受到共和党人的支持,那么这些民主党人就会拒绝接受这一观点,并最终导致大部分民主党人都拒绝接受该观点。简而言之,政治观点同歌曲一样,最终的命运取决于最初的受欢迎程度。正如梅西等研究人员指出的那样:“少数先行者的随机差异”会对整个群体产生颠覆性的影响——让共和党人和民主党人都欣然接受一系列与彼此的立场毫不相关的观点。
我们还可以思考一个一般性的群体决策问题:人们在网上如何对各种评论做出判断。耶路撒冷希伯来大学教授列夫·穆奇尼克(Lev Muchnik)及其同事在一个网站上开展了一项实验,他们向人们呈现不同的故事,并允许人们发表评论,以及对这些评论投赞成票或反对票。研究人员可以人为地、自动化地给一些评论投出第一张赞成票。你可能会想,在成百上千名访客中,使某条评论多出一张初始赞成票根本无足轻重,这个想法合情合理,却是错的。在看到第一张赞成票之后(别忘了这完全是人为操作的),下一个访客对该评论投赞成票的可能性增加了32%。
令人惊讶的是,这一效应随着时间的推移一直在持续。5个月后,开始时人为投出的那张赞成票,使得该评论的平均赞成票得票率增加了25%。最初的一张赞成票竟然产生了如此大的影响,这表明噪声确实存在。不管最初那一票是为何而投,它都使整体的受欢迎程度发生了巨大的改变。
这项研究为群体态度的转变以及群体内为何存在噪声提供了一条线索:相似的群体会做出非常不同的判断,而同一群体做出的判断也仅仅是一系列可能性中的一种。群体成员表达的赞成、中立、反对意见,其作用也类似于一开始投赞成票或反对票。如果群体中的一个成员立即表示赞同,那么其他成员也就有理由这么做。毫无疑问,当群体赞同某些产品、人、活动或思想时,可能并不是因为它们的内在优点,而是因为“提前投票”发挥了作用。当然,穆奇尼克的研究针对的是大规模群体,但同样的结果也会出现在小规模群体中,甚至更加富有戏剧性,因为最开始投下的赞同某个计划、产品或判决的赞成票经常会对他人产生更大的影响。
这里有一个相关的观点。我们曾经指出群体智慧效应指的是,如果你召集一大群人,问他们一个问题,他们的答案的平均值更有可能接近真实答案。对判断进行汇总是一种减少噪声,进而减少误差的非常好的方法,但是如果人们互相交流,那情况又会如何呢?你可能认为这样做是有好处的。毕竟人们可以互相学习,从而找出正确答案。在一些非常有利的条件下,互相分享知识、深思熟虑的群体确实会做得很好。然而,独立做出判断是发挥群体智慧的前提条件,如果人们不是自己做出判断,而是依赖于其他人,那么群体并不会更明智。
有些研究已经表明了这一点。在简单的评估任务——评估城市里的犯罪数量、一段时期内增长的人口、不同国家国界线的长度等任务中,只要群体成员独自做出判断,群体会更明智;如果他们知道了其他人的评估,比如一个12人小组的平均估计值,那么群体比个体的表现还要糟糕。正如研究者指出的那样,社会影响是有问题的,因为它们降低了群体多样性,但并没有减少群体的误差。具有讽刺意味的是,即便一点点社会影响都会降低群体智慧,但对多个独立判断进行适当的汇总则可以产生令人难以置信的准确结果。
信息级联,极易放大群体判断的噪声
我们描述的一些研究中包括“信息级联”(information cascades)。信息级联很常见,它可以解释为什么一些相似的商业群体、政治群体以及其他群体会做出完全不同的决策,以及为什么一些小的变化会产生如此不同的结果乃至噪声。只有历史真实发生了,我们才能看到,而对于许多群体以及群体决策而言,存在着各种各样的可能性,而最终得以实现的只是其中的一种。
要想理解信息级联是如何发挥作用的,我们可以想象在一间大办公室中有10个人,他们在决定要雇用谁来担任一个重要职位。候选人有3位,分别是托马斯、山姆和朱莉。假设群体成员是按顺序发表自己的观点的,每一个人都会认真聆听其他人的判断。阿瑟第一个发言,他认为托马斯是最佳人选。芭芭拉现在知道了阿瑟的判断,如果她也认为托马斯是最佳人选,她肯定会认同阿瑟的意见。假如她不确定谁是最佳人选而她信任阿瑟,她可能也会认同托马斯是最佳人选。因为她足够信任阿瑟,所以她支持了阿瑟的判断。
现在轮到查尔斯发言。阿瑟和芭芭拉已经表明了他们想雇用托马斯,但查尔斯有自己的想法。基于他自己掌握的有限信息(他非常清楚自己的信息很有限),他认为最佳人选不是托马斯,而是朱莉。虽然查尔斯有自己的想法,但他也有可能会忽视自己已知的信息,而只是附和阿瑟和芭芭拉。如果此事发生,那并不是因为查尔斯懦弱,而是因为他是一个尊重他人的倾听者。他可能只是认为:阿瑟和芭芭拉都选托马斯,他们肯定有自己的理由。
第四位发言人是戴维,除非戴维认为他自己掌握的信息确实比前几人更有说服力,否则他也会附和前几个人的意见。如果戴维也这样了,那么戴维就处在一个“信息级联”中。事实上,如果戴维有非常充分的理由认为阿瑟、芭芭拉和查尔斯的选择是错误的,那么戴维可能会表示反对。但如果他缺乏充分的反对理由,那么他就会做出和前几个人同样的选择。
重要的是,查尔斯和戴维可能了解托马斯或其他候选人的一些信息,并且有自己独到的看法,而阿瑟和芭芭拉并不知道这些信息和独到的看法。如果这些信息得以分享,那么这些非公开的信息可能会改变阿瑟和芭芭拉的意见。如果查尔斯和戴维先发言,他们不仅能表达关于候选人的意见,而且可能提供对其他决策者产生影响的信息。但由于查尔斯和戴维是后发言的,所以他们的非公开信息就只有自己知道。
假设现在大家也想听听后续参与投票的人——埃丽卡、弗兰克和乔治的观点。如果阿瑟、芭芭拉、查尔斯和戴维都认为托马斯是最佳人选,即使埃丽卡等人有理由认为其他人选可能更合适,阿瑟等人也还是会做出相同的选择。当然,如果答案明显是错的,埃丽卡等人会反对这种越来越趋于一致的意见,但如果错误没有那么明显呢?这个例子的吊诡之处在于,阿瑟最初的判断启动了一个过程,其他人被引导进了信息级联中,即便有些支持托马斯的人实际上根本没有任何看法,甚至有人认为托马斯根本不是最佳人选,但最终结果依然是所有人都选择了托马斯。
当然,这个例子是人为设定的,然而在各种群体中,类似的事情经常发生。人们倾向于向他人学习,如果先发言的人似乎喜欢某个事物或者想去做某件事,人们会表示认同。如果人们不怀疑这些先发言的人,或缺少一个明确的理由认为后者是错误的,那么至少在这些情况下,人们会选择认同。
我们想重点强调的是:信息级联会导致噪声可能出现在多个群体之间,有时出现的可能性甚至非常大。在上面的例子中,是阿瑟先发言,并且他看好托马斯。假设是芭芭拉先发言,而她更看好山姆,或是假设阿瑟的感觉稍微有点不同——他更喜欢朱莉,那么,一个可能的结果是,群体最终会倾向于选择山姆或朱莉,但并不是因为他们更好,而是因为信息级联。这也是音乐下载实验及同类实验中的核心发现。
需要注意的是,人们进入信息级联并不意味着他们是非理性的。如果人们不确定要雇用谁,追随他人未必不是明智之举。随着持同一观点的人越来越多,认同他们的选择仍然是明智的。然而,这里有两个问题:首先,人们往往会忽视一种可能性,即大部分人也跟他们一样处于信息级联中,因此他们也没有做出自己独立的判断。当看到3个、10个、20个人都欣然接受某种结论,我们可能会低估他们受前面的人影响的程度。即使他们的一致性反映的只是最初几个人的观点,但我们可能会认为这种一致性反映了某种群体智慧。其次,信息级联可能会导致整体朝着完全错误的方向前进,毕竟,阿瑟对托马斯的判断可能是错的。
当然,信息不是导致群体成员互相影响的唯一原因,社会压力也是很重要的因素。在公司或政府机构中,人们可能会通过保持沉默来避免自己显得不友好、爱争吵、迟钝或愚蠢。人们希望成为团队中的一员,这就是为什么人们通常会追随他人的观点和行为。人们可能认为自己知道什么是对的或什么有可能是对的,但他们表面上仍然倾向于与群体或少数优先发言者保持一致,从而在团队中保持良好的风度。
刚刚讲到的招聘故事也如出一辙,人们选择托马斯并不是因为他们通过彼此分享的信息了解到了托马斯的优点和长处,而是因为他们不希望被看成愚蠢或不合群的人。阿瑟支持托马斯的这一最初判断可能会引发一种从众效应,最终对埃丽卡、弗兰克或乔治施加了强大的社会压力——仅仅因为其他人都喜欢托马斯,所以埃丽卡等人也选择了托马斯。就像信息级联一样,社会压力也会形成“信息级联”:人们可能放大了先发言者所持有的信念。如果人们支持托马斯,那么他们这样做可能不是因为他们真的喜欢托马斯,而是因为一个优先发言的人或一个有权势的人支持托马斯。这样一来,群体成员的一致性进一步增加,社会压力水平也增加了。这是一个在公司或政府机构中非常常见的现象,它可能会增加人们对错误判断的信心,并导致人们一致支持这个错误的判断。
社会压力会导致不同群体之间产生噪声。如果在公司中,某个人组织召开了一次会议,希望对公司发展方向做出重大改变。会议的发起者可能最先发表一番言论,进而导致人们一致支持这种改变。他们的一致性可能是社会压力的产物,而并不是自己的观点。同样,如果另一个人在会议一开始就表明了不同的观点,或者最初的发言者保持沉默,讨论可能会朝着一个不同的方向发展。总之,非常相似的群体可能会由于社会压力的影响而到达不同的终点。
群体极化,讨论往往会滋生更极端的结论
在美国和其他一些国家,刑事案件和一些民事案件通常是由陪审团参与审判的。人们希望陪审团成员经过互相商议,做出比个体更明智的决策。然而,针对陪审团的研究揭示了一种会产生噪声的社会影响:群体极化(group polarization)。这一概念指的是,人们在互相交流时,往往会提出比原有倾向更极端的观点。例如,在一个7人群体中,如果大部人都认为在巴黎设立一个新的办事处是一个好主意,讨论之后,群体的决定可能会变成:在巴黎设立一个新的办事处是一个极好的主意。内部讨论常常会导致群体更自信、更团结、更极端,三者通常以更大的热情展现出来。群体极化不仅发生在陪审团中,也发生在要做出专业判断的团队之中。
我们通过一系列实验研究了陪审团在“产品责任案”中做出的惩罚性损害赔偿的决策。每位陪审员的决策对应一笔赔偿金额,目的是惩罚公司的不合规行为,并对其他公司起到威慑作用。我们会在第15章更加详细地讨论这项研究。为了说明群体极化问题,我们来看一个实验,该实验比较了现实世界中的陪审团和“统计中的陪审团”。首先,我们向899名被试呈现案件情境,并要求他们独立做出判断:用具有7个等级的量表来表达他们的愤怒程度、惩罚倾向,以及给出相应的赔偿金额。随后,基于这些被试的反应,我们利用计算机模拟出数百万个“统计陪审团”,即随机匹配的虚拟的6人群体。在每一个统计陪审团中,我们采用6人的中位数作为最终的裁决结果。
我们发现,这些统计陪审团的裁决非常一致,也就是说,噪声大大减少了。噪声水平的降低是因为对裁决结果进行了机械性的汇总,即对个体的独立判断进行平均会减少噪声。
然而,现实世界的陪审团不是“统计陪审团”,陪审员们会针对一起案件交流各自的观点。你有理由怀疑这些经过深思熟虑的陪审员是否真的会倾向于做出与评级为中位数的成员一致的判决。为了探明这一点,我们紧接着做了第二项研究。这项研究召集了3000多名有陪审员资格的人,由他们组成500多个6人一组的陪审团。
答案简单明了:总是互相商议的陪审团比统计陪审团具有更多的噪声。这清楚地反映了由于社会影响带来的噪声,互相商议增加了噪声。
这项研究还有一个有趣的发现。如果6人中评级为中位数的成员只有中等程度的愤怒,并且倾向于对相关人员从轻处罚,那么陪审团商议后的判决通常会更宽容;相反,如果各项选择均为中位数的成员非常愤怒,并且倾向于进行严厉惩罚,那么经过交流之后,陪审团会更愤怒,他们做出的判决也更严厉。当用赔偿金额来表达这种愤怒时,陪审团商议后的赔偿金额要比金额的中位数高。实际上,27%的陪审团选择的赔偿金额通常与陪审员选择的最高赔偿金额相等,甚至会比后者更高。能够相互交流的陪审团的噪声不仅比“统计陪审团”更高,而且加重了其成员原有的倾向。
回想一下关于群体极化的基本发现:人们彼此交流之后,明显变得比原来更加极端了,我们的实验证明了这一现象。陪审团成员在商议后要么变得更加宽容(当评级为中位数的成员倾向于宽容时),要么变得更加严厉(当评级为中位数的成员倾向于严厉时)。同样,倾向于实施金钱惩罚的陪审团在商议之后也会变得比评级为中位数的成员更加严厉。
对群体极化的解释类似于对信息级联的解释:信息发挥着重要作用。如果大部分人倾向于进行严厉惩罚,那么群体成员会听到很多认为有必要进行严厉惩罚的观点——反方的观点更少了。如果群体成员能够互相交流,那么他们会朝向处于主导地位的观点转变,导致群体更加团结一致、更加自信、更加极端。而且,如果人们在意自己在群体中的声誉,他们也会朝着占主导地位的观点转变,这样也会导致群体极化。
当然,群体极化会产生误差,并且经常如此,但我们的主要关注点在于变异性。正如我们所看到的那样,对判断进行汇总会减少噪声,也正因为如此,判断数量越多,判断的品质越好,这也是为什么“统计陪审团”比单个陪审团噪声更少。同时,我们发现能够相互交流的陪审团会比“统计陪审团”产生更多噪声。当处于相似情境中的群体最后表现出巨大的差异时,其原因往往在于群体极化,其结果是产生巨大的噪声。
在商业、政府以及其他机构中,信息级联和群体极化都会导致群体在应对同一问题时产生巨大差异,最终的判断结果取决于少数人——那些率先发言的人或有巨大影响力的人,这是一个值得注意的问题,因为个人的决策有很大的噪声。我们已经看到,水平噪声和模式噪声会使得群体成员的观点产生不应有的差异,而且该差异比我们预期的更大。我们已经看到疲劳、情绪、可以比较等情境噪声会影响率先发言的那个人的判断,群体互动则会放大这种噪声。结果,经过商议的群体会比仅仅对个体判断进行平均的统计群体产生更大的噪声。
由于企业或政府部门的一些重大决策都是在商议之后做出的,我们尤其要对这种风险保持警觉。组织及其领导应该采取一些方法来控制其成员在判断中的噪声,比如对群体商议进行管理,从而减少噪声而不是增加噪声,我们提出的减少噪声的策略,其目的就在于此。
· 消除噪声
群体决策中的噪声
· 似乎任何事情都取决于它最初的受欢迎程度,因此,我们最好想尽一切办法来让自己发行的产品在第一个星期就获得巨大成功。
· 正如我一直怀疑的那样,政治或经济理念就像电影明星。如果人们认为其他人喜欢,那么这种理念就会大受欢迎。
· 我一直很担心,当我的团队聚在一起时,我们会更自信、更团结、对我们所选择的行动方针更加坚定。我认为,我们的内部流程可能存在一些问题。