第一节 认知偏差
重新回顾本章开头的思考题1—4题,思考答错的原因是什么。比如第1题,许多人认为死于飞机事故的人数比死于心脏病的多,可能是因为飞机事故的新闻和报道比心脏病的新闻要多得多,给人们留下了生动深刻的印象,因而在回答这个问题时,人们更容易回想起来的是飞机事故的相关信息而非心脏病的信息,自然会认为飞机事故发生得更频繁,死亡人数更多,而事实并非如此。那么,在不确定条件下对某事件发生概率或某个数值进行估计的时候,是什么决定了人们的估计?为什么会存在各种各样的偏误?人们究竟是怎样形成对某个不确定事件或不确定数值的估计的?本节内容将初步给出答案。
一、启发法
人们应用的问题解决策略可分为算法和启发法。算法(algorithm)是解决问题的一套规则,它精确地指明解题的步骤。如果一个问题存在着算法,那么只要按照其规则操作,就能得到问题的解,对应着思维系统的思维判断。启发法(heuristics)是凭借经验的解题方法,是一种思考上的捷径,是解决问题的简单、笼统的规律或策略,对应着直觉系统的直觉判断,也被称为经验规则或拇指法则(rule of thumb)。
算法和启发法是两种性质不同的问题解决策略,算法虽然精准,但由于思维系统的特点是缓慢费力,因而算法有时难以应用于现实生活;而启发法对应着反应迅速、不费力气的直觉系统,因而,在现实中当要解决的问题很复杂但无须特别精准,或者知识信息不完全,无法用算法解决时,往往采用启发法来迅速得到答案。大量的实验证明,人们在现实生活中经常依赖于一系列的启发法原则来将要求估计概率和数值的复杂问题转化为简单的判断。尽管这些启发法原则通常是很有用的,但有时候它们也会导致严重的系统偏误。
启发法主要有三种:代表性启发法(representativeness),经常在人们被要求估计某事物或事件A是否属于某个类别B的情况下应用,反映的是个体与类别之间的关系;可得性启发法(availability),应用在人们被要求估计某个类别事件的发生频率或某件事情的可信性的情况;锚定与调整启发法(anchoring &adjustment),常应用在已有相关初始数值对某个数值进行推测时的情况。
二、代表性启发法及其偏差
先来看一个实验(Kahneman and Tversky,1974)。
被试者听到关于某个人的如下描述:“史蒂文是一个害羞、内向的人。他乐于助人,但对人们和现实世界没有多大兴趣。他的性格温顺严谨,喜欢井井有条,对细节有强烈爱好。”被试者被要求回答关于史蒂文职业的问题:“他最可能从事下列哪种职业:农民、销售员、飞行员、图书管理员、医生?”
被试者给出的答案大都是史蒂文更可能是图书管理员。人们做出这一估计根据的是史蒂文的性格多大程度上代表了或者类似于一个图书管理员的原型。
由此可见,人们在回答某事物或事件A是否从属或者来自类别B等问题时,人们依据的是事物或事件A的特点在多大程度上代表了或类似于类别B。人们倾向于根据观察到的某种事物的模式与其经验中该类事物的代表性模式的相似程度来进行判断的推理过程叫做代表性启发法。如果某一事物与类别高度相似或具有高度代表性,则人们判定事物从属于该类别的概率就高;反之,概率就低。代表性启发法常被用在估计个体从属于某类别的概率的问题上。
代表性启发法经常是有用的,但也会产生一些系统性的认知偏差。产生偏差的原因在于,某些影响实际概率大小的因素并不影响代表性或类似性的大小,或者说代表性启发法忽视了一些影响实际概率的因素。产生的偏差主要有以下几种:
(一)对基础概率不敏感(base rate neglect)
再来看一个实验(Kahneman &Tversky,1974):
被试者被告知某个人是随机从总数是100人的样本中挑出来的,并被要求在听完该人的描述后估计该人是一名工程师或律师的概率。被试者被分为两组,分别对应两个不同总体。第一组的被试者被告知该总体的100人中有70名工程师,30名律师。第二组的被试者则被告知总体的100人中有30名工程师,70名律师。
两组的被试者都听到了对这个人的如下描述:该人30岁,已婚,没有小孩。他的能力和激情都很高,因而他在该领域有望非常成功,他深受同事们的喜欢。结果表明,两个总体基础概率的差异对被试者的判断没有影响,两组被试者都给出了相似的概率估计。而实际上两个总体中某个人是工程师的概率应该是不一样的。如果这个人来自第一个总体,他是工程师而不是律师的概率较大,为7/10。而第二总体中,概率应该是3/10。
由此可见,人们根据描述衡量某个个体是否从属于工程师或律师,根据的是这种描述多大程度上代表了这两种职业类别的原型,而很少考虑这两个类别的基础概率。代表性启发法产生了忽略基础比率的认知偏差。
但是,比如以下的实验(Kahneman &Tversky,1982):
某城的两家出租汽车公司,出租车颜色分别是蓝色和绿色。一辆出租车在夜晚肇事后逃跑了。目击者证实肇事车是蓝色的。法庭认为目击者在那时有80%的可能能够正确区分蓝色和绿色,有20%的可能不能区分这两种颜色。被试者被要求在以下两种情况下判断肇事车为蓝色的概率:(1)城里85%的出租车是绿色的,15%的出租车是蓝色的。(2)尽管两家公司在规模上大致相等,但城里85%肇事出租车是绿色的,15%是蓝色的。
当先验概率与所讨论的事件相关性很强时,结果表明被试者认为肇事车是蓝色的概率在(1)时是80%,在(2)时为60%,而正确答案约为41%。在实验条件改变后,被试者由于两种颜色的出租车肇事比率与所讨论事件相关性较强,比实验条件改变前更多地考虑了先验概率,尽管这种对先验概率的考虑仍然不够。
(二)对样本规模不敏感(insensitivity to sample size)
我们先来看一个实验(Kahneman &Tversky,1974):
假设某一城镇有大小两家医院,在大医院每天有45名婴儿出生,在小医院每天有15名婴儿出生。大约50%的婴儿是男孩。每家医院记载一年内每天出生婴儿中60%为男孩的天数。请求被试者回答哪家医院记载的天数多。
结果56%的被试者认为天数将相等。但正确答案是小医院记载的天数多,因为大样本更不容易偏离50%的总体概率。而这种基础的统计知识并不在人们的考虑范围内。
这个实验说明人们认为小样本和大样本都具有对于总体同样程度的代表性,而根据概率统计理论,大样本比小样本的方差更小,因而更能稳定地代表总体,因而代表性启发法导致了认知的偏误。这种认为小样本也可以很好地反应总体的观点被称为小数定律(law of small numbers)。另外,对样本规模不敏感还会导致“能手现象”(hot hand),即当一个运动员在一场比赛中射入多个球时,球迷就会根据这个小样本现象认为他处在顶峰时期,显然这种认识也是有偏差的。
(三)对偶然性的误解(misconceptions of chance)
我们现在回顾本章开头的投掷硬币的思考题:将一块质地均匀的硬币投掷6次,H代表正面,T代表反面,那么以下两种结果哪个出现的可能性更大,HTHTTH还是HHHTTT? Kahneman和Tversky也做过相似的实验,被试者们大都认为前一种结果出现的可能性比后一种结果大,理由是前一种结果更好地代表了投掷硬币的公平、随机的性质,而后者看上去不那么代表随机性。而实际上正确的答案应是两种结果出现的可能性一样大,都是。
由此可见,由于存在代表性启发法,人们倾向于希望一种随机过程产生的一连串结果会代表这种过程的核心特点,即使实验的次数只是局部的几次,这就是由小数定律引起的“局部代表性”(local representativeness)。而这种人们思维的自然倾向与数学理论并不相符。在概率理论中,概率的频率定义是当实验次数趋近无穷次时,事件A发生的次数率fN会收敛到一个数P(A),P(A)被称为事件A发生的概率。根据这个定义,硬币的正反面出现概率各为1/2的含义是当投掷硬币的次数趋于无穷时,硬币出现正反面的次数会趋向于相等,各约为总实验次数的一半,而这种性质在实验次数N很小的时候(如N=6)并不一定会显现出来。而人们出于代表性启发的影响则会希望概率为1∶1的投硬币游戏中出现正面和反面的次数正好一样,或者是交替出现,而不管实际实验的次数是否足够多,认知与事实出现偏差在所难免。
局部代表性的信念产生的另一个结果就是著名的赌徒谬误(gambler's fallacy)。赌徒谬误是指人们会错误地受到当前经历的影响而对那些具有确定概率的事件给予错误的判断。举个例子,如果抛一个相同的硬币6次都是正面,那么抛第7次得到反面的可能性是多大呢?许多人会错误地回答很大。而实际上只要硬币是均匀的,不管之前投掷多少次,每次出现正面或反面的概率始终是1/2。
(四)对可预测性的不敏感(insensibility to predictability)
在作一些数字估计比如股票的未来价格、学生的期末成绩时,人们通常使用代表性启发法得到结果。比如被试者被要求根据对某一公司的描述而对该公司的未来利润进行预测。如果给出的描述很不错,则许多被试者会给出高利润的预测,因为高利润对于描述中的优秀公司是具有代表性的。相反,如果描述是平常的,则被试者大都会给出普通利润,因为这时平常的业绩是有代表性的。而事实上这种好的或差的描述与这种描述的可靠性或者这种描述对于利润的预测度根本没有关系。所以如果人们根据这种描述来给出预测,他们的预测其实是忽略了证据的可靠性和预测的精确度的,这种预测是具有偏差的。
(五)有效性幻觉(illusion of validity)
当被要求在几个预测结果中挑选一个时,人们选择的标准往往是结果在多大程度上代表了或类似于所掌握的输入信息,而很少考虑那些限制预测准确性的因素。所以,在给出了一个符合图书管理员原型的描述后,人们会很有自信地给出该人是图书管理员的预测,即使这个描述是信息过少的、不可靠的或是过时的。在预测结果与输入信息之间良好吻合的基础上形成的对于预测没有根据的自信,被称为有效性幻觉。
举一个例子,在一个要求根据学生上学期成绩预测本学期成绩的实验中,比较上学期成绩全是B的同学甲和上学期成绩是A和C的同学乙的情况,被试者对于有高度相关重复信息的同学甲的预测表示了更大的信心。对于预测的结果,当存在相关的、重复的输入信息时,人们对于预测的信心会大大增加,而具有讽刺意味的是,统计时当变量相关性增加,即自相关性增加时,预测的方差会变大,预测的准确性会下降。这种与事实背道而驰的预测自然会出现很大的误差。
(六)对回归均值的误解(misconception of regression)
均值回归定理的内容是:若两个变量x、y有相同的分布,若一组样本的X值的平均值偏离X平均值k个单位,则通常来说该组样本的Y的平均值偏离Y平均值的距离小于k单位,即向均值的回归。打个比方,我们选取一个班的学生作测验,选出第1次测验中表现最好的10个学生进行观察,会发现第2次测验中这10个学生的成绩将或多或少变差。同样,第1次测验中表现最差的10个学生在第2次测验中的成绩一般会变好一些。
而在现实中人们并不按数学定理进行思考。人们通常认为预测结果应该具有输入信息的代表特征,结果值应该和输入变量一致。举一个例子,在飞行训练中,教练发现一个奇怪的现象:在一次优秀的飞行后,教练往往给予飞行员表扬,但受到表扬的飞行员的下一次飞行往往会比较糟糕;相反,在教练批评了某个飞行员的糟糕表现之后,他的第二次飞行常常会变好。从而教练员得出结论,飞行员在听到表扬后会产生自满情绪从而使下一次表现变差,而听到批评会使他们更加用心,所以应该多批评,少表扬。根据上面的均值回归定理,我们不难看出飞行员一次好、一次坏的飞行是正常现象,正是向均值回归的体现,而并不是教练的表扬或批评所起的作用。因而,对回归均值的误解导致人们错误地评价奖励和惩罚的作用。
三、可得性启发法及其偏差
在估计某个类别事件的发生频率或某个事情的概率时,人们常常根据回想起相关例证的容易程度来断定。比如,一个人在估计心脏病的危险性时,可能通过回想他身边这种事件的发生例证来进行估计。这种判断的启发法被称为可得性启发法(availability),即人们根据一个事物或事件在知觉记忆中的可得性程度评估其相对频率或发生概率的启发法,容易感知到或回想到的被判定为更常出现。现实中的大概率事件比小概率事件更容易发生,因而在记忆中自然更易检索到,因而可得性启发法有着客观上的合理性,当事件的记忆可得性与其客观频率相一致时,可得性启发是比较准确有用的。但是除了事件发生的客观频率外,事件的新近性、显著性、生动性和事件发生时所伴随的情感相似性都会影响事件的记忆可得性,导致对事件发生概率的高估或低估。因而,可得性启发法导致了一系列的认知偏误。
(一)由例证可得性导致的偏差(biases due to the retrievability of instances)
当某一类别事物的规模大小由其例子来判断时,人们会认为一些容易回想出的例子代表的类别比不容易回想到的例子的类别规模要更大一些。下面来看一个实验(Kahneman and Tversky,1974):被试者听到一个由男女名人组成的名单(不同组的被试者听到的是不同的名单),随后被要求判断该名单中哪一性别的名字比较多。结果表明,当名单中男性相对比女性更有名一些时,被试者会错误地认为更有名的人的性别——男性占多数;反之,被试者会认为女性占多数。这个例证说明例子的熟悉度影响例子的可得性,从而导致判断的偏差。
除此之外,例子的显著性也会影响例子的可得性。如亲眼见过心脏病突发死亡事故的人,对这种疾病风险的主观概率判断要比通过新闻了解相对更容易在记忆中得到。
(二)由搜索效率导致的偏差(biases due to the effectiveness of a search set)
回想本章开头的这道思考题:以字母r开头的英文单词数量与以字母r为第3个字母的单词数量哪个更多?人们思考这道题的方式是回想以r开头的单词(如road)和第3个字母为r的单词(如car),然后根据回想的容易度来估计各自数量的多少。因为通过第1个字母搜索单词比通过第3个字母搜索单词要容易得多,大多数人会给出以r开头的单词数量比第3个字母为r的单词要多的答案,而事实并非如此。这说明在使用可得性启发法的过程中,由于受到记忆结构的影响,人们认为更容易在记忆中搜索到的事件比不容易搜索到的事件的频率更大,这便导致判断偏离了现实。
下面一个实验也证明了这种偏差的存在。实验中被试者被要求估计一些抽象词语(如爱、思想)和一些具体词语(如门、水)的使用频率。被试者大都错误地认为这些抽象词语比具体词语的使用频率更高,原因是在记忆中搜索带有爱、思考等抽象词的词句文章更为容易。
(三)意象偏差(biases of imaginability)
有时候要估计一些事件的概率,不是靠在存储的记忆里搜索,而是需要根据一些规则来推导。这时,更容易被推导出来的相关例子代表的类别会被认为频率或概率更大,而例子的推导容易度其实与事件的真实概率无关,这时偏差便产生了。
请看下面一个问题:
将10个人分成k人1组的委员会,可能组成多少个不同的委员会?
当k=5时,正确答案应该是。而且组成k人1组的委员会的可能个数=组成(10-k)人1组的委员会的可能个数,因为每个每组k人的委员会都对应着唯一的一个每组(10-k)人的委员会。所以k=2时和k=8时这道题的答案是一样的。然而大多数被试者的回答中,k =2时的委员会个数大于k=8时的委员会个数。原因在于人们会通过在心里构想k个人组成的委员,然后根据想出的容易度来估计其数目。而构想委员会的最简单方式是将这群人划分成不相交的集合,因而人们会认为构想5组每组2人的委员会很容易,而每组8人的委员会连2组都无法组成。因而如果人们根据可想象性或构想的可得性来估计频数,人数较少的委员会的数量看起来会显得比人数多的委员会的更多。实际上实验的结果表明,随着委员会中人数k的增大,被试者们估计的委员会数目逐渐下降,当k=2时,被试者估计的平均值为70个委员会,而当k=8时,估计的平均值下降到20个。而二者的正确答案都是。
(四)虚幻的相互联系(illusory correlation)
L.J.Chapman和J.P.Chapman曾做过一个实验,说明人们在判断两个事件一起发生的频率时常出现一种有意思的偏差,即“虚幻的相互联系”。
实验中先展示给被试者一些假定的心理病人的信息,每个病人的信息包括一份疾病临床诊断和病人画的一幅画。之后被试者被要求估计某些疾病诊断(如多疑症或妄想症)与画的某些特征(如奇怪的眼睛)一起出现的频率。
结果被试者显著地高估了多疑症和奇怪的眼睛这两个事件一起出现的频率,其实这两个事件一起出现的频率并不如估计的那样高。这种效应即被称为“虚幻的相互联系”。
实验结果还表明,受到“虚幻的相互联系”效应影响,人们对与认定的联系相矛盾的数据很抵制,甚至在画中的特征与疾病诊断为负相关关系时人们依然坚持这种虚幻的联系存在。这种效应还阻止人们检测出实际存在的真实联系。
其实可得性启发法对这种虚幻的联系效应已经提供了解释。在估计某两个类别事件同时发生的频率时,人们也会常常根据回想起相关例证的容易程度来断定。一般来说,两件事经常同时发生会增强人们对这两件事的相互关联程度的认识。因而反过来,人们通常通过估计两件事情之间关系的强度来判断这两件事情同时发生的概率。若两件事之间的关联性强,人们会觉得两件事是配对的,进而判断两件事经常同时发生。人们认为多疑症和眼睛这两个事物的关联性强(可能是觉得多疑症的人用眼睛看人的眼光会很奇怪),因而得出这两件事经常同时发生的判断。
(五)可得性启发法导致的偏差的总结
生活经验告诉我们,一般来说,大规模的类别比小规模的类别发生的频率更高,所以代表大规模类别的例子比代表小类别的更容易更快地被回想起来,从而得出关于频率的判断,比如现实中下雨比下冰雹的频率更高,所以相对于冰雹天气我们更容易回想起雨天的例子,进而我们就得出下雨比下冰雹的频率高的判断;大概率事件比小概率事件更容易发生,所以大概率事件比小概率事件更容易想象;而两件事经常同时发生会增强人们对这两件事的相互关联程度的认识,进而得出关于频率的判断。因而可得性启发法是适应现实的表现,是具有现实合理性的,一般情况下也是正确有用的。
结果,人们在估计一个类别事件的数量、一个事件的可能性以及两件事一起发生的概率时,常依据的是相关心理检索或构想的容易度(见图2-1)。
图2-1 可得性启发法导致的偏误示意图
但是,要特别注意的是,这种逻辑反过来并不一定成立。图2-1的箭头反向后并不成立,可得性强并不一定意味着事件的真实频率高,因为影响可得性的不只是现实中事件的发生频率,还有其他多种因素。这就是可得性启发引起各种系统偏差的道理所在。
四、锚定与调整启发法及其偏差
在许多情况下,人们在作估计时常从某一个初始值开始,通过对初始值的调整得到最终估计值,这种启发法被称为锚定与调整启发法。在这种启发法中,初始值(开始点)的选择可能是受问题表述方式的启发,也可能是不完全计算的结果。而由心理形成机制的影响,调整常常是不充分的,不同的初值产生不同的偏向初值的最终估计值,因而产生了锚定效应(anchoring effect)。首先我们来回顾一下与锚定与调整启发法相关的心理机制。
双系统选择模型是锚定与调整启发法的心理理论基础。在本章前面我们介绍了直觉系统和推理系统分别充当了反射机制和适应机制的双系统选择模型。在决策形成的过程中,首先,直觉和感觉根据可感知性启发原则形成高度可感知的印象;其次,直觉系统根据可感知的印象形成决策;最后,推理系统对直觉形成的判断进行逐步的修正和调整,但这种修正和调整是很有限的,常常是不足的。这便是锚定与调整启发法产生的心理机制。
由于存在锚定和调整不足,锚定与调整启发法导致的偏误可分为以下三类。
(一)不充分调整(insufficient adjustment)
首先来看一个实验(Kahneman &Tversky,1974):
被试者估计联合国中非洲国家成员占多大比例。在估计之前,被试者被要求转动一个数字为0到100的转盘得到一个数字,回答轮盘上的数字是高于还是低于估计值,然后再说出他们的估计值。
结果显示,得到数字10的被试者的平均估计为25%;而那些得到数字60的被试者的平均估计为45%。实验表明,人们尽管对初值进行了调整,但并没有完全消除锚定效应。而且尽管初值是随意选取的,但人们固守于无关的初始信息。
不仅在将初始值给予被试者的时候存在锚定效应,当被试者根据一些不完全的计算估计结果时,锚定效应也会产生。回顾本章开头的第4道思考题:“在5秒内给出下式答案:8×7×6×5×4×3×2×1=?再请你的朋友在5秒内给出下式答案:1×2×3×4×5×6×7×8=?比较你和你朋友的答案。”测验的结果是:第一个按降序排列的等式估计结果为2250,第二个升序等式的估计结果是512,而正确的答案都是40230。限定这么短的时间,目的是不让被试者作完整的计算。被试者往往会计算几个步骤的结果,然后通过调整这个初始值得出最后估计。因为调整通常是不充分的,估计会出现偏误。而且,因为开始几步乘法的结果在降序中比在升序中要大,所以前者的估计结果往往也比后者的要大。这个例子典型地表明了人们在进行估计时的锚定和调整的过程以及带来的巨大偏差。
(二)联合事件和分离事件估计中的偏差(biases in the evaluation of conjunctive and disjunctive events)
首先来看一个实验(Bar-Hillel,1973):
被试者有机会对两个事件中的一个下赌注。用到了以下三种类型的事件。
简单事件:从一个红球、黑球各占50%的袋子中拿出1个红球(p=0.50);
联合事件:从一个红球占90%、黑球占10%的袋中可放回地连续取出7个红球(p=0.48);
分离事件:从一个红球占10%、黑球占90%的袋中可放回地在7次抽取中至少取出1个红球(p=0.52)。
结果显示:在对简单事件和联合事件下赌注时,绝大部分的被试者选择对联合事件下赌(p=0.48),而不选简单事件(p=0.50);在对简单事件和分离事件下赌注时,绝大部分的被试者选择对简单事件下赌(p=0.50),而不选分离事件(p=0.52)。这种选择说明人们倾向于高估联合事件的概率,而低估分离事件的概率。
这种偏差的出现可以用锚定与调整启发法来解释。简单事件的概率为估计联合事件和分离事件的概率提供了一个自然的初始值。而调整经常是不充分的,因而对联合事件概率的估计下调过少,而对分离事件概率的估计上调不足,结果出现了这样的结果:高估联合事件的概率,低估分离事件的概率。
对联合事件概率估计的偏差在现实生活中也经常发生。一项工作的成功完成,如一件新产品的推出,由许多环节和步骤组成,即使每一个环节和步骤成功的概率很高,整个工作成功完成的概率却往往不高。而人们常常以每个环节完成的高概率为初始值,倾向于低估一个复杂工作出问题的概率。
(三)主观概率分布估计的锚定问题(anchoring in the assessment of subjective probability distributions)
我们以一个实验开始(Kahneman &Tversky,1974):
被试者被要求对道·琼斯指数给出一个点估计,再给出一个估计区间,使得真实值以0.9的概率大于X10,以0.9的概率小于X90,如果估计属实,则区间[X10, X90]以0.81的概率包括道·琼斯指数的真实值。
而实验结果表明,被试者估计的区间平均有30%的概率并不包括真实值。存在这么大偏差的原因就是锚定与调整启发法。当被试者被要求估计一个区间时先估计的是指数值,再通过向上、向下调整估计区间端点值,而不足的调整往往导致X10不够小,X90不够大,区间[X10, X90]太狭窄,估计的准确性降低。
@@@