第三章 归纳与逻辑概率
对于约翰·梅纳德·凯恩斯来说,概率乃是两个命题之间的逻辑关系。他并不企图去定义这种关系。他甚至走得这样远以至于说到,不可能制定一个什么定义。他坚持说,只有用直觉我们才能明白概率是什么意思。他的书《概率论》[1],给出了几个用符号逻辑表达的公理和定义,但从现代的观点看,并不怎么健全。凯恩斯的有些公理事实上是定义,而他的一些定义事实上却是公理。但他的书,特别是他讨论概率理论的历史以及今天我们能从早期的观点中学到些什么的那些章节,从哲学的立场上看是很有趣味的。他的中心论点是,当我们作一概率陈述时,我们并非做出关于世界的陈述,而只是做出关于两个命题之间的一种逻辑关系。我们讲的只是一个陈述对于另一个陈述来说具有如此这般大小的逻辑概率。
我用“如此这般大小”这个词组,实际上凯恩斯更为小心,他怀疑概率一般是否可以被当作一个定量的概念即有数值的概念。当然他认为在特殊场合下,例如在投掷骰子(在那里旧的无差别原则可以应用)的场合下,概率可以被当作一个定量概念。骰子是匀称的,所有的方面都是一样的,我们没有理由怀疑它是灌了铅的等等。在其他的碰运气游戏中,情况是同样的,在那里,条件被细心地安排得显现出物理的对称性,至少相对于我们的知识与无知来说是对称的。轮盘的轮子做得各个格子都相等。轮子小心地被保持平衡以消除任何引起滚球落于某一数格而不落于其他数格的倾向。如果某人抛出一钱币,我们没有理由假定是正面显现出来而不是反面显现出来。
凯恩斯说,只限于这类情况,我们才能合理地运用概率的经典定义之类的东西,他同意无差别原则的批判者的意见:在经典时期,这个原则在太广的意义上被运用了,并且被错误地运用于许多场合,例如预言明天太阳将会升起等。他说,在碰运气的游戏中以及在其他简单场合里,无差别原则是可用的,并且能给概率以数值,这是正确的。但在大多数的场合里,我们无法定义等可能事件,因而我们没有理由运用这个原则。凯恩斯说,在这样的情况下,我们不应该运用数值。他的看法是小心的而且是怀疑论的,他不想走得太远,以至于踏上他所说的薄冰,所以他限制住他理论的定量部分。凯恩斯告诫我们,在许多情况下,不要毫不迟疑地去打赌,去用数值作概率预言。
在兴起对概率进行现代逻辑的研究的热潮中,第二个重要的人物乃是哈罗德·杰弗里斯,他是英国的一个地球物理学家。他的《概率理论》一书(1939年首次在牛津出版)捍卫了一个与凯恩斯概念密切相关的概念。当凯恩斯出版他的书时(出版于1921年,因而他也许于1920年写成),米西斯和赖辛巴赫论概率的著作才首次出现。凯恩斯看来还不知道它们,他批评频率的方法,但并没有作详细的讨论。到了杰弗里斯写他的书的时候,频率的解释已充分地发展起来了,因而他的书更加明确地讨论了这个问题。
杰弗里斯直截了当地指出,频率理论是完全错误的。他肯定了凯恩斯的观点:概率所谈的不是频率,而是逻辑的关系。他比那小心谨慎的凯恩斯大胆得多,他相信在大多数的情况下,特别是在数理统计可以运用的所有场合,对概率是可以指定数值的。他想要处理R.A.菲希尔以及其他统计学家所感兴趣的同样的问题,不过是在不同的概率概念的基础上去处理它们。由于他运用了无差别原则,我相信他的某些结果易受到异议,这种异议与反经典理论所产生的异议是同样的。但要在他的书中寻找一些特别命题来进行批判是困难的,他的公理一个接一个地是可接受的。依我的观点看,只有当他企图从某一公理中演绎出定理时,才犯了错误。
成问题的公理被杰弗里斯陈述如下:“在特定论据下,我们给有比较大的可能性的命题指定比较大的数值(因而给有同样大的可能性的命题以相等的数值)。”括号里的部分只是说,若p与q在证据r的基础上有同等的可能性,则派给p与q以同样的数值来表示它们对于证据r的概率值。这个陈述并不告诉我们在怎样的条件下我们能认定对于r,p与q有同等的可能性。在这本书的其他任何地方杰弗里斯都没有说明这些条件。但在这本书的稍后的地方,他为了建立科学规律的定理,以极为惊人的方式解释了这个公理。他写道:“如果没有理由相信某一假说而不相信另一个假说,则它们的概率相等。”换言之,如果我们没有充分的证据来判定特定的理论是真是假,则我们必须得出结论说,这个理论有1/2的概率。
这是无差别原则的一个合理的应用吗?在我看来,这正好是受到经典理论的批评家谴责的一个应用。如果无差别原则要得到完全的应用,则事情必须有某种类型的对称性如骰子各面相等或轮盘赌的轮子各格相同等,以至于我们可以说这些事件是有等可能性的。在缺乏事情的逻辑上的或物理特征上的这种对称性的情况下,仅仅由于我们不知道相对立的假说的相对优点,就假定它们是等概率的,这是毫无根据的。
一个简单的例证就会弄明白这个问题。按照杰弗里斯对他的公理的解释,我们应该假定火星上有生命的概率为1/2,因为我们没有充足的理由相信这个假说,也没有充足的理由相信这个假说的否定。按照同样的方法,我们应当有理由说火星上有动物的概率为1/2以及那里有人的概率为1/2。从断言自身来考虑,每个断言都是我们关于它无这样那样充分证据的断言,但这些断言彼此处于这样的相互关系使得它们不能有同样的概率值,第二个断言比第一个断言强,因为它蕴涵了第一个断言,而第一个断言并不蕴涵第二个断言。因此,第二个断言比第一个断言具有更小的概率;同样的关系对第三个断言与第二个断言的相互关系也成立。因此,甚至运用修正了的无差别原则,我们也必须十分小心,否则我们很可能陷入这种自相矛盾之中。
杰弗里斯的书受到数理统计学家的严厉批判。我只是对于少数几个地方才同意他们的批判,在那里杰弗里斯提出的定理不能从他的公理中推导出来。另一方面,我应该说凯恩斯和杰弗里斯两人仍是工作在正确方向上的先驱者。[2]我自己的关于概率的工作也是在同样的方向上进行的,我分享了他们的观点,即逻辑概率乃是一种逻辑关系。如果你做出一个陈述,断言对于某一特定假设,相对于给定证据的逻辑概率为0.7,则这个总的陈述是一个分析的陈述,它意味着这个陈述是从逻辑概率的定义中(或从逻辑系统的公理中)推出,而不诉诸任何逻辑系统以外的东西,这就是说,不诉诸现实世界的结构。
在我的概念里,逻辑概率乃是有点类似于逻辑蕴涵的一种逻辑关系,真的,我想概率可以被看作一种部分的蕴涵。如果证据是如此强,以至于假说逻辑地由它导出——逻辑地被它蕴涵——则有一极端的情况,在那里概率是1(概率为1也在其他场合中发生,不过这是那里发生的一个特殊场合)。类似地,如果证据逻辑地蕴涵一个假说的否定,则这个假说的逻辑概率为0。在它们之间,存在着情况的连续统。关于这个连续统,演绎逻辑除了否定的断言,即这个假说及其否定都不能从证据中演绎出来之外,并不告诉我们任何东西。关于这个连续统,归纳逻辑必须把它接过来,但归纳逻辑如同演绎逻辑一样,它们只与所包含的陈述有关,与自然界的事实无关。通过对所陈述的假说h和所陈述的证据e的逻辑分析,我们得出结论,e并不逻辑地蕴涵h,而是,可以这样说,e部分地蕴涵h到如此这般大小的程度。
在这点上,依我的观点看,我们认为给这种概率指定数值是有道理的。如果可能,我们很想这样构造一个归纳逻辑体系,使得对于任意一对语句,其一断言证据e,其二陈述假设h,我们能够给h关于e的逻辑概率以一个数值(我们不考虑这种琐碎的情况,在那里,语句e是矛盾的;在这种情况中,不能给h指定概率数值)。对于只包含一元谓词的非常简单的语言,我已经成功地提出这种概率的可能定义,而现在的工作是进一步将这个理论推广到比较综合的语言中去。当然,如果我企图构造在这样基础上的整个归纳逻辑要对科学有一些实在的价值,则它最后应被运用于定量语言,即如我们在物理学中所看到的那样的语言,在那里不仅有一元或二元谓词,而且也有如质量、温度等数值。我相信,这是可能的,并且它所包含的基本原则和引导我们为一元谓词的简单语言构造归纳逻辑的工作的原则是一样的。
当我说运用归纳逻辑于科学语言是可能的时候,我并不是说可以制定一个规则的集合,一劳永逸地记住它,在任何领域自动地引导我们从事实中得出理论。例如,能够制定这样的规则,使科学家能够概览给出不同观察报告的十万个语句,并从这些规则的机械运用中发现能解释所观察的现象的一般理论(规律系统),这看来是非常可疑的。这一般是不可能的,因为理论,特别是比较抽象的理论涉及那些诸如粒子与场等不可观察的东西,它所运用的概念框架远远超出用以描述观察材料的框架。人们不能简单地遵从建立在固定规则基础上的机械程序去发明一个新的理论概念体系,并靠着它的帮助发明一个理论。创造性的机灵是需要的,这个观点有时被表述为不可能存在一部归纳机器——一部这样的计算机,我们能将所有有关的观察语句输进去,而在输出端可以取出能解释被观察现象的简洁的规律系统。
如果归纳机器的目的是发明新理论,则我同意不可能有这样一部机器。但是,我相信可能存在一部具有不太过分的目标的归纳机器。给定一定的观察e和一个假说h(例如,预言的形式或甚至规律集合的形式),则我相信用机械的程序在许多场合下,能确定其逻辑概率或h在e的基础上的确证度。对于这个概率概念,我也用“归纳概率”一词,因为我确信这是一个包含于所有归纳推理中的基本概念,而归纳推理的主要任务乃是求出这种概率的值。
当我们概观概率理论的现状,我们发现频率理论的拥护者和像凯恩斯、杰弗里斯以及我自己这样的人根据逻辑概率所讲的理论的拥护者之间的论战。但我的见解和凯恩斯与杰弗里斯的见解之间有一个重要的区别,他们拒绝概率的频率概念,而我不拒绝。我想,频率概念也称为统计概率,是一个很好的科学概念,这个概念或者如在米西斯和赖辛巴赫系统中那样通过明确的定义而引进;或者如在当代数理统计中那样通过一公理系统与实际运用规则(没有明确定义)而引进。在这两种场合中,我认为这个概念对科学来说都是重要的。依我的观点,概率的逻辑概念是第二类概念,它的性质完全不同,虽然同等重要。
给统计概率以数值的陈述并非纯逻辑的,它们在科学语言中是事实的陈述。当一个医生说,一个病人对于某一种注射会有阳性反应的概率是“非常好的”(或者他用了一个数值,比如说是0.7),他就做了一个医学科学的陈述。当一个物理学家说这种特定放射现象的概率是如此这般大小时,他做的是物理学的陈述。统计概率是一种科学的、经验的概念,有关统计概率的陈述是“综合的”陈述,这种陈述不能用逻辑来决定而是建基在经验探究的基础上。关于这一点,我完全同意米西斯、赖辛巴赫以及统计学家的意见。当我们说,“用这个特别的骰子投掷得一点的概率是0.157”,我们陈述了一个科学假说,这个假说只能用一系列观察来加以检验。这是一个经验陈述,因为只有经验的调查研究才能确证它。
随着科学的发展,这类概率陈述看来变得越来越重要,这不仅在社会科学中而且在现代物理学中也如此。统计概率不仅被包含于这样的领域之中,在那里它之所以成为必要是由于人们的知识不足(如在社会科学中或当物理学家计算液体分子轨道之时),而且它也作为一个本质的因素包含于量子理论的基本原理之中。有一个统计概率理论对于科学来说是极端重要的。这种理论已由统计学家们提出并且也由米西斯和赖辛巴赫以不同的方式提出。
另一方面,我们也需要逻辑概率的概念。在元科学的陈述即在关于科学的陈述中,它特别有用。我向一个科学家说:“你告诉我说我能依靠这个规律做出某种预言,这个规律是在怎样好的程度上被确立了呢?这个预言有多大的可靠性呢?”今天这个科学家可能愿意或者可能不愿意用定量的语词来回答这类元科学的问题,但我相信,一旦归纳逻辑充分地发展起来,他会回答:“在有效证据的基础上,这个假说被确证到0.8的程度。”一个科学家用这种方式回答问题,他就做出一个有关证据与所研究的假说之间的逻辑关系的陈述,在他心中的这类概率乃是逻辑概率,这个概率我也称之为“确证度”。他关于这个概率的值是0.8的陈述,在这个语境中,并非一个综合的(经验的)陈述,而是一个分析的陈述。它之所以是分析的,因为它并不要求经验的调查研究,它表达了陈述证据的句子与陈述假说的句子之间的一种逻辑关系。
在做出概率的分析陈述时,需注意的是,它总是需要明确地指明证据,科学家不应说“这个假说有0.8的概率”,他必须补充说“相对于这样那样的证据来说是这样”,如果不做这个补充,他的陈述可以作为统计概率的陈述。如果他意图使它成为逻辑概率的陈述,那它是一个省略了的陈述,在那里一个重要的成分被省去了。例如,在量子理论中,要知道一个物理学家指的是统计概率还是逻辑概率常常是困难的。物理学家常常不作这种区分,他们讲的好像只存在一个他们用以进行工作的概率概念一样。他们会说:“我们指的是这类概率,它满足概率理论的普通公理。”但两种概念都满足概率理论的普通公理,所以这个陈述并没有明确地搞清他们的意思指的是概率的哪一种类型。
类似的混淆也可在拉普拉斯以及提出概率的经典概念的其他人的陈述中找到。他们没有觉察到我们今天觉察到的逻辑概率与频率概率之间的不同,由于这个缘故,要确定他们所意指的是哪一种概念并不是总是可能的。但我确信,在大多数时候——当然不全是如此——他们指的是逻辑概念。依我的观点看,米西斯以及其他频率论者对经典学派做出的某种评论是不正确的。米西斯相信,除了频率概念之外,不存在其他的科学的概率概念,所以他假定,如果经典作家用“概率”来完全表示什么意思的话,那他们必定指的是统计概率。当然,他们毕竟不能清楚和明确地说明他们指的是相对频率,但是按米西斯的说法,他们暗含地意指这东西。我不同意这种意见。我相信,当经典作家们关于先验概率做出某种说明时,他们讲的是逻辑概率,它是分析的因而能先验地被知道的。我不像米西斯和赖辛巴赫那样,认为这些陈述违反经验主义的原则。
让我来补充一些谨慎的话。我在我的讨论概率的书中表述了这些观点以后,许多同事——有些是我的朋友——从经典作家中引了一些话并说明在经典作家的心中并没有逻辑概率。我同意这个意见,在他们的某些陈述中,经典作家未能指出逻辑概率;大概,他们指的是频率概率。然而,我确信,他们的基本概念乃是逻辑概率。我想,这个意思甚至包含于这个领域的第一本系统著作雅可比·贝努利的《猜测的艺术》一书的标题之中。米西斯的概率理论并不是猜测的艺术,它是一种数学地阐明的关于大量现象的公理理论。关于它们,这里不存在猜测。贝努利所指的意思就很不相同,他说,我们已经看到一定的事件,如一骰子下落的方式,而我们想要做出关于如果我们再一次抛掷它,它会怎样下落的猜测。我们想要知道的,是怎样做出合理的赌博。对于经典作家来说,概率乃是我们获得未来事件的肯定程度或有把握的程度。这是逻辑概率而不是统计意义的概率。[3]
关于我的概率观点,我将不做较详细的论述,因为它包含了许多技术性的东西。但我将讨论一个能将两种概率概念结合起来的推理。当归纳推理的一个假设或一个前提含有统计概率时,这个推理产生。我们通过修改一下我们用以讨论全称规律的基本图式就很容易看出这个问题。代替全称规律(1),我们取统计规律(1′)为第一个前提,这个统计规律说明Q对于P的相对频率(rf)(例如)是0.8。和前面一样,第二个前提(2)说明一定个体a具有性质P。第三个陈述(3)断言a具有性质Q。这第三个陈述Qa,是我们要在这两个前提的基础上考虑的假说。
在符号形式
(1′) rf(Q,P)=0.8
(2)Pa
(3)Qa
中,关于(3)对于(1′)与(2)的逻辑关系,我们能说些什么?在先前的场合——全称规律的图式——我们能做出下述的逻辑陈述:
(4)陈述(3)被(1)与(2)逻辑地蕴涵着。
我们关于上面给出的图式,不能做出这样的一个陈述,因为新的前提(1′)弱于前面的前提(1);它陈述了一种相对频率而不是一种全称规律。但,我们能做出下述的陈述,它也断言着一种逻辑关系,不过这是借助于逻辑概率或确证度,而不是借助于蕴涵:
(4′)陈述(3),在(1′)与(2)的基础上,具有0.8的概率。
注意这个陈述,如陈述(4)一样,并不是从(1′)与(2)得出的逻辑推理,(4)与(4′)两者都称为元语言的陈述;它们是关于三个断言,即(1)[或分别是(1′)]、(2)与(3)的逻辑陈述。
精确地理解用诸如“Q相对P的统计概率是0.8”这样的陈述来表示什么意思是重要的。当科学家做出这样的陈述,讲到频率意义的概率时,他们指的是什么频率并不总是十分清楚的。它是Q在被观察样品中的频率吗?是Q在所考虑的总体中的频率吗?是在总体中频率的一种估计吗?如果在样品中所观察的实例的数目非常大,则在样品中Q的频率在任何有意义的程度上可能与Q在总体中的频率或与这种频率的一种估计没有区别。然而,牢记这里所包含的理论上的区别是重要的。
假定我们想要知道生活于某一城市的10万个男人中用电动剃刀刮胡子的百分率,我们决定去问其中的1000个男人。为了避免有偏见的样品,我们必须依据现代民意测验中工作人员所使用的技术方法来挑选这1000人。假定我们获得无偏颇的样品并且抽样中的800人报告说他们用了电动剃刀,因而,这种性质被观察到的相对频率是0.8。因为1000人是十分大的抽样,我们可以得出结论,在总体中这种性质的统计概率乃是0.8。严格地说,这不是一个有保证的结论,只有样品中的频率的值是已知的,在总体中的概率的数值是不知道的。我们能做的最好也不过是做出在总体中的频率的估计数字。这个估计数字不应与在样品中的频率的值相混淆。一般的,这样的估计在一定的方向上与抽样中观察到的相对频率相偏离。[4]
假定(1′)已知:Q相对于P的统计概率是0.8(怎样知道这些是我们无须考虑的问题。我们可以通过逐一会见这城市所有的10万个男人来检验)。当然,这个概率的陈述是经验的陈述。同样地,假定第二个前提为已知,它是Pa。现在我们能够做出陈述(4′),指明(3)Qa相对于前提(1′)与(2)的逻辑概率是0.8。但如果第一个前提并不是统计概率陈述,而是在抽样中被观察的相对频率的陈述,则我们必须考虑样品的大小。我们仍然能够计算出表现于陈述(4)的逻辑概率或确证度,但它将不是精确的0.8。它将会以我在前面的注脚中提到的专题论文中所讨论到的那种方式发生偏离。
当一个归纳推理以这种方式做出,它从一个样品推到整个总体,从一个样品推到未知的未来样品,或从一个样品推到未知的未来实例时,我是作为“间接概率推理”或“间接归纳推理”而说及它们的,把它们看作与从总体到某一样品或某一实例的归纳推理有区别的东西。正如我早就说的,如果总体中实际的统计概率知识在(1′)中给定,则在(4)中断言同样数值的确证度是正确的。这样一种推理不是演绎的,它在其他种类的归纳推理和演绎推理之间占着某种中间的地位,有些作者甚至称它为“演绎概率推理”,但我宁愿说它是归纳的而不是演绎的。无论什么时候,当给出总体的统计概率而我们要去为抽样决定概率,用我的归纳逻辑给出的值会与统计学家给出的值相同。但是,如果我们从一抽样到这总体或从一抽样到未来的个别实例或未来的有限抽样(后两种情况我称之为“预言推理”)做出一种间接推理,则我相信统计学所用的方法并不是非常适当的。在我的专题论文《归纳方法的连续统》中,我给我的这种怀疑态度作了详细的说理。
我想在这里强调的主要论点是:概率的两种类型——统计的和逻辑的——可以在同一推理链条中共同出现。统计概率是科学对象语言的一部分。要陈述统计概率,我们可以运用逻辑概率,它是科学的元语言的一部分。我深信,这个观点比之通常在统计学的书中找到的观点更能给出关于统计推理的清晰图景,并为适当的科学的归纳逻辑建构提供一个必要的基础。
[1] 约翰·梅纳德·凯恩斯:《概率论》,伦敦,麦克米兰公司1921年版。
[2] 凯恩斯和杰弗里斯以及其他支持逻辑概率的人们的工作的技术上的评价,见我的《概率的逻辑基础》一书(芝加哥:芝加哥大学版,1950)第62节,这本书的六个非技术性的章节作为一个小的专题著作《归纳逻辑的性质和运用》重印(芝加哥:芝加哥大学版,1951)。
[3] 我认为,无论统计概率还是逻辑概率,都是合理的、好的科学概念,它们起着不同的作用。这个观点在前面注脚已引证的《概率的逻辑基础》一书第二章中以及在我的1945年的论文《概率的两种概念》中做了表述,后者见赫伯特·菲格尔与威尔弗里德·塞拉斯主编的《哲学分析读本》(纽约:Appleton-Century-Crofts,1949),第330—348页,以及赫伯特·菲格尔和梅·布罗德贝克主编的《科学哲学读本》(纽约:Appleton-Century-Crofts,1953),第438—455页。同样观点的比较通俗的作品,可参见我的文章《什么是概率?》,载《科学的美国人》,1953年9月号,第189期。
[4] 这个问题在我的《概率的逻辑基础》一书中没有进行讨论,但在一本较小的专题著作《归纳方法的连续统》(芝加哥:芝加哥大学版,1952)中,我提出了在观察样品的基础上对相对频率进行估算的若干技巧。