白话大数据与机器学习
上QQ阅读APP看书,第一时间看更新

3.3 小结

排列组合以及利用排列组合计算的古典概型在生产生活中可以解决很多问题。刚刚这些例子我们已经看到了不少用法和技巧。

在这里有几个概念可能会被误读,我们需要在这里澄清一下。

最容易发生的误解是,扔硬币的时候,如果前3次出现“正”,那第4次出现“反”的概率就增大。

这里面的误解我认为有两个层面。

误解1:对“概率”一词本身的理解有偏差。

“概率”一词的汉语含义是几率、可能性、可能程度。我们通常会以我们自己臆想的方式去猜测某件事情的可能性比较高或者比较低,这会导致我们对概率大小理解的偏差。

在使用排列组合与古典概型的方法时,有一个大原则就是这些概率实际上是通过统计计算出来的,请注意,由统计得出概率是人们得到概率最原始的方法,包括后面将要介绍的条件概率也是一样的道理。也就是说,硬币扔出正面和反面各50%的概率是多少,这不是因为硬币本身有两个面,而是通过多次扔硬币,然后用得到正面的次数除以总数得到扔出正面的概率——这个才是定义。而如果硬币本身不是匀质的,如由于图案雕花构造或者铸币金属本身的特性导致正面较重,反面较轻,很有可能导致扔出正面的概率为60%,反面的概率为40%的情况(抑或其他比例)。请注意,这个结论同样是通过多次扔硬币得出来的,例如扔1000次,发现有600次是正面,400次是反面。这时再计算扔3次硬币会产生3个正面的概率就不是3个1/2相乘了,而是3个0.6相乘了。

既然如此,概率本身的解释就是对于大量样本分布比例的解释,而不是对单次事件的可能性的解释。我们说扔硬币产生正面概率50%,反面概率50%,其实是在说扔1000次硬币,理论上会有500次产生正面,500次产生反面;扔10000次硬币,理论上会有5000次产生正面,5000次产生反面。这才是概率本身的含义,而对于单次扔硬币的解释没有意义。

误解2:事件之间的独立性。

扔出一次硬币,得到正面,下一次重新再扔,那么这一次扔硬币和上一次扔硬币有关系吗?学过概率论的朋友都不会陌生,答案是“没有关系”。没学过概率论的朋友其实稍微想一想也能得出这个结论。

这里不妨再做一个实验,这个实验略显复杂且无厘头,但是这个过程大家想想很快能想明白。

让100个人,每个人都手持一枚同款匀质硬币,让他们各自开始扔,一次、两次、三次……任何一个人都是一直在扔硬币直到出现最近3次连续都是正面的时候停下来。最后,这100个人都会在那里静静地停下来等待下一个指令,这个指令就是让他们同时进行一次抛硬币的动作,然后比较这100枚硬币正反面出现的比例。对于每一位参与实验的人来说,如果由于前3次投掷都产生正面而使得第4次投掷出现反面的概率变高的话,那么会在100人同时投掷的实验中看到一个奇怪的现象,那就是出现反面比正面多很多的情况。真的会这样吗?人们甚至还可以观察更为极端的情况,那就是等待最近5次连续都是正面的时候停下来,结果又当如何?如果在一个试验中直接扔100枚硬币,那么产生正面和反面应该都是50次左右。这又和刚刚的假设看上去如此矛盾。究竟哪种说法是对的呢?统计的定义交给统计来验证吧。